상위 7 개의 작은 언어 모델

저자의 이미지

틀 소개

소규모 언어 모델 (SLM)은 빠르게 AI의 실용적인 얼굴이되고 있습니다. 그들은 더 빠르고, 더 똑똑하고, 훨씬 더 효율적이며, 대형 모델이 요구하는 컴퓨팅, 메모리 및 에너지의 일부로 강력한 결과를 제공합니다.

AI 커뮤니티의 추세는 LLM (Large Language Model)을 사용하여 합성 데이터 세트를 생성하는 다음 특정 작업을 위해 SLM을 미세 조정하거나 특정 스타일을 채택하는 데 사용됩니다. 결과적으로 SLM은 소형 크기를 유지하면서 더 똑똑하고 빠르며 전문화되고 있습니다. 이는 흥미로운 가능성을 열어줍니다. 이제 지능형 모델을 지속적인 인터넷 연결이 필요하지 않은 시스템에 직접 포함시켜 개인 정보, 속도 및 신뢰성을위한 기기 지능을 가능하게합니다.

이 튜토리얼에서는 AI 세계에서 파도를 만드는 최고의 소형 언어 모델 중 일부를 검토 할 것입니다. 우리는 그들의 크기와 성능을 비교하여 어떤 모델이 당신의 요구에 가장 적합한 균형을 제공하는지 이해하는 데 도움이됩니다.

틀 1. Google/Gemma-3-270m-IT

그만큼 젬마 3 270m 모델은 Gemma 3 Family의 가장 작고 초경량 중량 멤버로 효율성과 접근성을 위해 설계되었습니다. 2 억 7 천만 개의 매개 변수를 사용하면 계산 자원이 제한된 장치에서 원활하게 실행될 수 있으므로 실험, 프로토 타이핑 및 가벼운 응용 프로그램에 이상적입니다.

소형 크기에도 불구하고 270m 모델은 32k 컨텍스트 창을 지원하며 기본 질문 응답, 요약 및 추론과 같은 광범위한 작업을 처리 할 수 있습니다.

틀 2. Qwen/Qwen3-0.6b

그만큼 Qwen3-0.6b 모델은 QWEN3 시리즈에서 가장 가벼운 변형으로, 매우 효율적이고 액세스 가능한 상태를 유지하면서 강력한 성능을 제공하도록 설계되었습니다. 6 억 개의 매개 변수 (0.44B 비 에비팅)를 사용하면 기능과 리소스 요구 사항 간의 균형이 맞습니다.

QWEN3-0.6B는 빠른 일반적인 목적 대화를 위해 복잡한 추론, 수학 및 코딩을 위해 “사고 모드”를 원활하게 전환 할 수있는 기능을 제공합니다. 32K 컨텍스트 길이를 지원하며 100 개 이상의 언어에서 다국어 지원을 제공합니다.

틀 3. Huggingfacetb/Smollm3-3b

그만큼 smollm3-3b 모델은 소규모 언어 모델의 한계를 높이기 위해 설계된 작지만 강력한 오픈 소스 언어 모델입니다. 30 억 파라미터를 사용하면 추론, 수학, 코딩 및 다국어 작업에서 강력한 성능을 제공하면서 더 넓은 접근성을 위해 충분히 효율적으로 유지됩니다.

SMOLLM3은 듀얼 모드 추론을 지원하여 사용자가 복잡한 문제 해결을 위해 확장 된 “사고 모드”와 일반 대화를위한 더 빠르고 가벼운 모드를 전환 할 수 있습니다.

텍스트 생성 외에도 SMOLLM3을 사용하면 도구 호출과 함께 에이전트 사용을 가능하게하여 실제 응용 프로그램에 대한 다용도가됩니다. SMOLM3은 공개 교육 세부 정보, 오픈 웨이트 및 체크 포인트를 갖춘 완전히 개방형 모델로서 연구원과 개발자에게 3B – 4B 규모의 추론 가능 AI 시스템을 구축하기위한 투명하고 고성능 토대를 제공합니다.

틀 4. QWEN/QWEN3-4B-Instruct-2507

그만큼 QWEN3-4B-Instruct-2507 Model은 생각하지 않는 모드에서 더 강력한 성능을 제공하도록 설계된 QWEN3-4B 시리즈의 업데이트 된 명령 조정 변형입니다. 40 억 개의 매개 변수 (3.6B 비 에비 딩)를 사용하면 논리적 추론, 텍스트 이해, 수학, 과학, 코딩 및 도구 사용량에 따라 교육에 대한 주요 개선 사항을 소개하며 여러 언어에서 장거리 지식 범위를 확장합니다.

다른 QWEN3 모델과 달리이 버전은 생각이없는 모드에 대해서만 최적화되어 추론 토큰을 생성하지 않고 더 빠르고 효율적인 응답을 보장합니다. 또한 글쓰기, 대화 및 주관적인 추론과 같은 개방형 및 창의적 작업에서 우수한 사용자 선호도와 더 나은 정렬을 보여줍니다.

틀 5. Google/Gemma-3-4B-It

그만큼 젬마 3 4b Model은 Gemma 3 제품군의 명령 조정 된 다중 모드 멤버로, 고품질 텍스트 출력을 생성하면서 텍스트 및 이미지 입력을 모두 처리하도록 설계되었습니다. 128K 토큰 컨텍스트 창에 대한 40 억 개의 매개 변수와 지원을 통해 질문 답변, 요약, 추론 및 상세한 이미지 이해와 같은 작업에 적합합니다.

중요한 것은 텍스트 분류, 이미지 분류 또는 전문화 된 작업에 대한 미세 조정에 고도로 사용되므로 특정 도메인에 대한 모델의 전문화 및 성능을 더욱 향상시킵니다.

틀 6. Chande/Jan-V1-4B

그만큼 1 월 V1 Model은 Jan Family의 첫 번째 릴리스로, Jan App 내에서 에이전트 추론 및 문제 해결을 위해 특별히 구축되었습니다. Lucy 모델을 기반으로하고 QWEN3-4B-THINKINK ARDUCTUCE에 의해 구동되는 Jan-V1은 강화 된 추론 기능, 도구 활용 및 복잡한 에이전트 작업에 대한 성능 향상을 제공합니다.

모델을 확장하고 매개 변수를 미세 조정함으로써 SimpleQA에서 91.1%의 인상적인 정확도를 달성했습니다. 이것은이 크기의 모델에 대한 사실에 대한 질문에 대한 중요한 이정표입니다. Jan App, Vllm 및 Llama.cpp와 함께 로컬로 사용하도록 최적화되어 있으며 성능을 향상시키기위한 권장 설정이 있습니다.

틀 7. Microsoft/Phi-4-Mini-Instruct

그만큼 PHI-4- 미니 비 스트럭 모델은 Microsoft의 PHI-4 제품군의 가벼운 3.8b 매개 변수 언어 모델로, 연구 및 상업용 응용 프로그램 모두에서 효율적인 추론, 지시 및 안전한 배포를 위해 설계되었습니다.

고품질 필터링 된 웹 데이터, 합성 “교과서와 같은”추론 데이터 및 선별 된 감독 명령 데이터의 5T 토큰을 혼합하여 훈련 한 128K 토큰 컨텍스트 길이를 지원하고 수학, 논리 및 다국어 작업에서 탁월합니다.

PHI-4-MINI-Instruct는 또한 기능 호출, 다국어 생성 (20 개 이상의 언어) 및 VLLM 및 변압기와 같은 프레임 워크와의 통합을 지원하므로 유연한 배포가 가능합니다.

틀 결론

이 기사는 효율성, 추론 및 접근성의 균형을 유지함으로써 AI 환경을 재구성하는 가볍고 강력한 오픈 모델의 새로운 물결을 탐구합니다.

Google의 Gemma 3 Family에서 Ultra-Compact gemma-3-270m-it 그리고 다중 모드 gemma-3-4b-it효율적인 Qwen의 Qwen3 시리즈에 Qwen3-0.6B 그리고 긴 컨텍스트, 지시 최적화 Qwen3-4B-Instruct-2507이 모델은 스케일링 및 미세 조정이 더 작은 발자국에서 강력한 추론 및 다국어 기능을 잠금 해제 할 수있는 방법을 강조합니다.

SmolLM3-3B 이중 모드 추론과 장기 텍스트 지원으로 작은 모델의 경계를 푸시합니다. Jan-v1-4B Jan App 생태계 내에서 에이전트 추론 및 도구 사용에 중점을 둡니다.

마지막으로 Microsoft의 Phi-4-mini-instruct 3.8b 매개 변수가 고품질 합성 데이터 및 정렬 기술을 통해 수학, 논리 및 다국어 작업에서 경쟁력있는 성능을 제공 할 수있는 방법을 보여줍니다.

Abid Ali Awan (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자입니다. 현재 그는 컨텐츠 제작 및 기계 학습 및 데이터 과학 기술에 대한 기술 블로그 작성에 중점을두고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 취득했습니다. 그의 비전은 정신 질환으로 어려움을 겪고있는 학생들을위한 그래프 신경망을 사용하여 AI 제품을 구축하는 것입니다.

출처 참조