IT 개발자 뉴스 일반 기술 뉴스 테크노에 대한 모든 것 LLMS, 대규모 언어 모델, 메모리, 생성 AI, 오픈 소스 Ji-ho (지호) 10월 23, 2025 0 Comments

소규모 언어 모델: AI21의 Edge AI 혁신

대부분의 AI 세계가 OpenAI의 GPT-5 및 Anthropic의 Claude Sonnet 4.5와 같은 더욱 큰 언어 모델을 구축하기 위해 경쟁하고 있는 반면, 이스라엘의 AI 스타트업인 AI21은 다른 길을 가고 있습니다.

AI21은 30억 매개변수 모델인 Jamba Reasoning 3B를 공개했습니다. 이 컴팩트한 오픈 소스 모델은 250,000개 토큰의 대규모 컨텍스트 창을 처리할 수 있으며(즉, 일반적인 언어 모델보다 훨씬 더 많은 텍스트를 “기억”하고 추론할 수 있음) 소비자 장치에서도 빠른 속도로 실행될 수 있습니다. 이번 출시는 점점 더 커지는 변화를 강조합니다. 더 작고 효율적인 모델이 원시 규모만큼 AI의 미래를 형성할 수 있습니다.

AI21의 공동 CEO인 Ori Goshen은 다음과의 인터뷰에서 “우리는 AI의 보다 분산화된 미래를 믿습니다. 모든 것이 대규모 데이터 센터에서 실행되는 것은 아닙니다.”라고 말합니다. IEEE 스펙트럼. “대형 모델은 여전히 역할을 하겠지만 기기에서 실행되는 작고 강력한 모델은 AI의 미래와 경제성 모두에 상당한 영향을 미칠 것입니다.”라고 그는 말합니다. Jamba는 기기에서 효율적으로 실행되는 엣지 AI 애플리케이션과 특수 시스템을 만들고자 하는 개발자를 위해 제작되었습니다.

AI21의 Jamba Reasoning 3B는 긴 텍스트 시퀀스와 수학, 코딩, 논리적 추론과 같은 까다로운 작업을 처리하는 동시에 랩톱 및 휴대폰과 같은 일상적인 장치에서 놀라운 속도로 실행되도록 설계되었습니다. Jamba Reasoning 3B는 하이브리드 설정에서도 작동할 수 있습니다. 간단한 작업은 장치에서 로컬로 처리되고, 더 무거운 문제는 강력한 클라우드 서버로 전송됩니다. AI21에 따르면 이러한 더욱 스마트해진 라우팅은 특정 워크로드에 대한 AI 인프라 비용을 잠재적으로 몇 배나 줄일 수 있습니다.

작지만 강력한 LLM

30억 개의 매개변수를 갖춘 Jamba Reasoning 3B는 오늘날의 AI 표준에 비해 매우 작습니다. GPT-5 또는 Claude와 같은 모델은 1000억 개의 매개변수를 훨씬 넘게 실행하며 Llama 3(8B) 또는 Mistral(7B)과 같은 더 작은 모델은 AI21 모델의 크기보다 두 배 이상 크다고 Goshen은 지적합니다.

이러한 컴팩트한 크기로 인해 AI21 모델이 소비자 장치에서 250,000개 토큰의 컨텍스트 창을 처리할 수 있다는 점이 더욱 놀랍습니다. GPT-5와 같은 일부 독점 모델은 더 긴 컨텍스트 창을 제공하지만 Jamba는 오픈 소스 모델 중에서 새로운 최고 수준을 설정합니다. 기존 개방형 모델 128,000개의 토큰 기록 의해 개최되었습니다 Meta의 Llama 3.2(3B), Microsoft의 Phi-4 Mini 및 DeepSeek R1은 모두 훨씬 더 큰 모델입니다. Jamba Reasoning 3B는 전체 용량으로 작업하는 경우에도 초당 17개 이상의 토큰을 처리할 수 있습니다.— 즉, 전체 250,000개의 토큰 컨텍스트 창을 사용하는 매우 긴 입력입니다. 다른 많은 모델은 입력 길이가 100,000개 토큰을 초과하면 속도가 느려지거나 어려움을 겪습니다.

Goshen은 이 모델이 Jamba라는 아키텍처를 기반으로 구축되었다고 설명합니다. 이 아키텍처는 두 가지 유형의 신경망 설계, 즉 다른 대규모 언어 모델에 익숙한 변환기 레이어와 메모리 효율성을 높이도록 설계된 Mamba 레이어를 결합한 것입니다. 이 하이브리드 설계를 통해 모델은 기존 변환기 메모리의 약 1/10을 사용하여 노트북이나 휴대폰에서 직접 긴 문서, 대규모 코드베이스 및 기타 광범위한 입력을 처리할 수 있습니다. Goshen은 이 모델이 입력이 길어질수록 처리 속도가 느려질 수 있는 KV 캐시라는 메모리 구성 요소에 덜 의존하기 때문에 기존 변환기보다 훨씬 빠르게 실행된다고 말합니다.

소규모 LLM이 필요한 이유

모델의 하이브리드 아키텍처는 매우 긴 입력에도 불구하고 속도와 메모리 효율성 모두에서 이점을 제공한다고 LLM 업계에서 일하는 소프트웨어 엔지니어가 확인했습니다. 엔지니어는 다른 회사의 모델에 대해 논평할 권한이 없기 때문에 익명을 요청했습니다. 더 많은 사용자가 노트북에서 로컬로 생성 AI를 실행함에 따라 모델은 너무 많은 메모리를 소비하지 않고 긴 컨텍스트 길이를 신속하게 처리해야 합니다. 엔지니어는 Jamba가 30억 개의 매개변수로 이러한 요구 사항을 충족하므로 기기 내 사용에 최적화된 모델이라고 말합니다.

Jamba Reasoning 3B는 허용되는 Apache 2.0 라이선스에 따른 오픈 소스이며 Hugging Face 및 LM Studio와 같은 인기 있는 플랫폼에서 사용할 수 있습니다. 또한 이 릴리스에는 오픈 소스 강화 학습 플랫폼(VERL이라고 함)을 통해 모델을 미세 조정하기 위한 지침도 함께 제공되므로 개발자가 자신의 작업에 맞게 모델을 더 쉽고 저렴하게 조정할 수 있습니다.

“Jamba Reasoning 3B는 작고 효율적인 추론 모델 제품군의 시작을 의미합니다.”라고 Goshen은 말했습니다. “축소를 통해 분산화, 개인화 및 비용 효율성이 가능합니다. 데이터 센터에서 값비싼 GPU에 의존하는 대신 개인과 기업이 장치에서 자체 모델을 실행할 수 있습니다. 이는 새로운 경제성과 더 넓은 접근성을 제공합니다.”

귀하의 사이트 기사에서

웹상의 관련 기사

출처 참조