7 인기 LLM이 7 분 만에 설명되었습니다

저자의 이미지 | 캔버
우리는 많은 일상 업무에서 큰 언어 모델을 사용합니다. 이 모델은 수십억의 온라인 문서와 다양한 데이터 세트에 대해 교육을 받았으며 인간과 같은 언어로 이해, 이해 및 대응할 수 있습니다. 그러나 모든 LLM이 같은 방식으로 생성되는 것은 아닙니다. 핵심 아이디어는 비슷하지만 기본 아키텍처가 다르며 이러한 변형은 기능에 중대한 영향을 미칩니다.. 예를 들어, 다양한 벤치 마크에서 볼 수 있듯이 DeepSeek은 추론 작업에 뛰어나고 Claude는 코딩에서 잘 수행하며 Chatgpt는 창의적인 글쓰기에서 두드러집니다.
이 기사에서는 7 개의 인기있는 LLM 아키텍처를 안내하여 몇 분만에 명확한 개요를 제공합니다. 그래서 시작합시다.
1. 버트
종이 링크 : https://arxiv.org/pdf/1810.04805
2018 년 Google이 개발 한 Bert는 언어 모델링에서 심각한 양방향 관심을 도입함으로써 자연 언어 이해가 크게 바뀌 었습니다. Bert는 왼쪽에서 오른쪽에서 오른쪽에서 오른쪽에서 오른쪽에서 오른쪽에서 오른쪽으로 읽은 이전 모델과 달리 변압기 인코더를 사용하여 양방향을 동시에 고려합니다. 마스크 언어 모델링 (무작위로 가려진 단어 예측)과 차세대 예측 (한 문장이 논리적으로 다른 문장을 따르는 지 결정)의 두 가지 작업을 사용하여 교육을받습니다. 건축 적으로 Bert는 Bert Base (12 층, 110m 매개 변수)와 Bert Large (24 층, 340m 매개 변수)의 두 가지 크기로 제공됩니다. 그 구조는 전적으로 인코더 스택에만 의존하며와 같은 특수 토큰을 포함합니다. [CLS] 전체 문장을 나타 내기 위해 [SEP] 두 문장을 분리합니다. 감정 분석, 질문 답변 (분대와 같은) 등과 같은 작업에 대해서는 미세 조정할 수 있습니다. 문장의 완전한 의미를 진정으로 이해하는 것은 처음이었습니다.
2. Gpt
종이 링크 (GPT 4) : https://arxiv.org/pdf/2303.08774
GPT (생성 사전 훈련 된 변압기) 패밀리는 OpenAI에 의해 도입되었다. 이 시리즈는 2018 년 GPT-1로 시작하여 2023 년 5 월에 출시 된 최신 버전 인 GPT-4O와 함께 2023 년까지 GPT-4로 발전했습니다. 그들은 표준 차세대 예측 언어 모델링 목표를 가진 매우 큰 텍스트 Corpora에서 미리 훈련됩니다. 각 단계에서 모델은 다음 단어를 모든 이전 단어로 주어진 순서로 예측합니다. 이 감독되지 않은 사전 훈련 단계 후, 동일한 모델을 특정 작업에서 미세 조정하거나 최소한의 추가 매개 변수로 0/소수의 방식으로 사용할 수 있습니다. 디코더 전용 설계는 GPT가 Bert의 양방향 인코더와 달리 이전 토큰에만 참석한다는 것을 의미합니다. 소개에서 주목할만한 점은 GPT의 얇은 규모와 기능이었습니다. 각 연속 세대 (GPT-2, GPT-3)가 커짐에 따라이 모델은 매우 유창한 텍스트 생성과 소수의 학습 능력을 보여 주면서 “사전 훈련 및 프롬프트/미세 조정” 큰 언어 모델에 대한 패러다임. 그러나 API를 통해 일반적으로 제공되는 액세스가있는 독점적이며, 특히 최근 버전의 정확한 아키텍처는 완전히 공개되지 않았습니다.
3. 라마
4 개의 블로그 링크를 호출합니다. https://ai.meta.com/blog/llama-4-multimodal-intelligence/
종이 링크 (라마 3) : https://arxiv.org/abs/2407.21783
Meta AI가 개발하고 2023 년 2 월에 처음 출시 한 Llama는 오픈 소스 디코더 전용 변압기 모델입니다. 2025 년 4 월에 출시 된 최신 버전 인 Llama 4와 함께 70 억에서 70 억의 매개 변수입니다. GPT와 마찬가지로 LLAMA는 변압기 디코더 전용 아키텍처 (각 모델은 자동 회귀 변압기)를 사용하지만 일부 아키텍처 조정이 있습니다. 예를 들어, 원래 LLAMA 모델은 고정 된 것 대신 로프 위치 임베드 (로프) 대신 gelu 대신 Swiglu 활성화를 사용했으며 층 표준 대신 rmsnorm을 사용했습니다. LLAMA 패밀리는 LLAMA1에서 7B에서 65B 매개 변수까지 여러 크기로 출시되었으며, 나중에 LLAMA3에서는 대규모 모델에 더 많은 액세스를 가능하게합니다. 특히, 상대적으로 겸손한 매개 변수 수에도 불구하고, 이들 모델은 훨씬 더 큰 동시대 사람들과 경쟁적으로 수행되었다. Meta는 Llama의 13B 모델이 많은 벤치 마크에서 OpenAi의 175b GPT-3을 능가했으며 65B 모델은 Google의 Palm 및 Deepmind의 Chinchilla와 같은 동시대와 경쟁력이 있다고보고했습니다.. Llama ‘s Open (연구 제한적이지만) 릴리스는 광범위한 커뮤니티 사용을 생성했습니다. 주요 참신함은 규모의 효율적인 훈련을 모델 가중치에보다 개방적으로 접근하는 것이 었습니다.
4. 팜
팜 2 기술 보고서 : https://arxiv.org/abs/2305.10403
종이 링크 (palm) : https://arxiv.org/pdf/2204.02311
Palm (Pathways Language Model)은 Google Research에서 개발 한 일련의 대형 언어 모델입니다. 원래 Palm (2022 년 발표)은 540 억 파라미터, 디코더 전용 변압기였으며 Google Pathways 시스템의 일부입니다. 그것은 Google 인프라의 고품질 코퍼스와 Google 인프라의 수천 개의 TPU V4 칩에 대한 교육을 받았으며, 병렬 처리를 사용하여 높은 하드웨어 활용을 달성했습니다. 이 모델은 또한 추론 중에 메모리 대역폭 요구 사항을 줄이기 위해 다중 정체주의를 가지고 있습니다. 팜은 그로 유명합니다 소수의 학습 능력웹 페이지, 서적, Wikipedia, 뉴스, Github 코드 및 소셜 미디어 대화를 포함하여 거대하고 다양한 교육 데이터로 인해 최소한의 예제로 새로운 작업을 잘 수행합니다. 2023 년 5 월에 발표 된 Palm 2는 Google Bard 및 Workspace AI 기능과 같은 응용 프로그램에 전원을 공급하여 다국어, 추론 및 코딩 기능을 더욱 향상 시켰습니다.
5. 쌍둥이 자리
Gemini 2.5 블로그 : https://blog.google/technology/google-deepmind/gemini-model-thinking updates-march-2025/
종이 링크 (Gemini 1.5) : https://arxiv.org/abs/2403.05530
종이 링크 (Gemini) : https://arxiv.org/abs/2312.11805
Gemini는 2023 년 후반에 소개 된 Google의 차세대 LLM 제품군 (Google Deepmind 및 Google Research)입니다. Gemini 모델은 기본적으로 멀티 모드입니다. 즉, 한 모델의 텍스트, 이미지, 오디오, 비디오 및 코드를 처리하도록 처음부터 설계되었습니다. Palm 및 GPT와 마찬가지로 Gemini는 변압기를 기반으로하지만 주요 기능에는 대규모 규모, 매우 긴 상황에 대한 지원, (Gemini 1.5) 효율성을위한 혼합 운동 (MOE) 아키텍처가 포함됩니다. 예를 들어, Gemini 1.5 ( “Pro”)는 희소하게 활성화 된 전문가 계층 (수백 명의 전문가 하위 네트워크, 입력 당 소수의 활성화)을 사용하여 비례 계산 비용없이 용량을 높입니다. 2025 년 3 월에 시작된 Gemini 2.5 시리즈는 더 깊은“사고”기능 으로이 기초를 기반으로합니다. 2025 년 6 월, Google은 Gemini 2.5 Flash 및 Pro를 안정적인 모델로 출시했으며 가장 비용 효율적이고 가장 빠른 버전 인 미리보기 Flash-Lite는 아직 고급 스루 패션 작업에 최적화되어 백만 가지 컨텍스트 창 및 검색 및 코드 실행과 같은 도구 통합을 지원했습니다. Gemini 제품군은 여러 크기 (Ultra, Pro, Nano)로 제공되므로 클라우드 서버에서 모바일 장치로 실행할 수 있습니다. 멀티 모달 프리 트레인과 MOE 기반 스케일링의 조합은 Gemini를 유연하고 유능한 기초 모델로 만듭니다.
6. 미스트랄
종이 링크 (Mistral 7b) : https://arxiv.org/abs/2310.06825
Mistral은 2023 년에 첫 번째 LLM을 출시 한 프랑스 AI 스타트 업입니다. 플래그십 모델 인 Mistral 7B (2023 년 9 월)는 73 억 개의 파라미터 변압기 기반 디코더 모델입니다. 건축 적으로 Mistral 7B는 GPT 스타일 모델과 유사하지만 추론 최적화를 포함합니다.: GQA (Grouped-Query주의)를 사용하여 더 긴 컨텍스트를보다 효율적으로 처리하기 위해 자체 변환 속도와 슬라이딩 윈도우 주의력을 높입니다. 성능 측면에서, Mistral 7B는 Meta의 Llama 2 13B를 능가하고 34B 모델과 비교하여 강력한 결과를 제공하면서 훨씬 작습니다. Mistral AI는 Apache 2.0 라이센스에 따라 모델을 출시하여 자유롭게 사용할 수 있습니다. 다음 주요 릴리스는 층당 8 개의 7 B-Parameter Expert Networks를 특징으로하는 Sparse Mix-of-Experts (MOE) 모델 인 Mixtral 8 × 7B였습니다. 이 디자인은 수학, 코딩 및 다국어 벤치 마크와 같은 작업에서 Mixtral Match 또는 GPT -3.5 및 Llama 2 70B를 이길 수있었습니다. 2025 년 5 월, Mistral은 기업을 대상으로 한 독점 중형 모델 인 Mistral Medium 3을 발표했습니다. 이 모델은 표준 벤치 마크에서 Claude 3.7 Sonnet과 같은 비싼 모델 점수의 90% 이상을 제공하는 반면, 삭제 당 비용은 극적으로 줄어 듭니다 (Sonnet의 경우 \ $ 3.00의 대략 $ 0.40). 다중 모드 작업 (텍스트 + 이미지), 전문적인 추론을 지원하며 API 또는 4 개의 GPU에 대한 예-예비 배포를 위해 제공됩니다. 그러나 이전 모델과 달리 Medium 3은 폐쇄 소스이며, Mistral은 오픈 소스 정신에서 멀어지고 있다는 커뮤니티 비판을 제기합니다. 2025 년 6 월, Mistral은 명시 적 추론에 전념 한 첫 번째 모델 인 Magistral을 소개했습니다. 작은 버전은 Apache 2.0에 열려 있으며 Magistral Medium은 엔터프라이즈 전용입니다. Magistral Medium은 AIME2024에서 73.6%를 기록했으며 소형 버전은 70.7%를 기록하여 여러 언어로 강력한 수학 및 논리 기술을 보여줍니다.
7. Deepseek
용지 링크 (DeepSeek-R1) : https://arxiv.org/abs/2501.12948
DeepSeek은 중국 AI 회사 (2023 년 설립 된 High-Flyer AI의 스핀 오프)입니다. 최근 모델 (DeepSeek V3 및 DeepSeek-R1과 같은 모델은 매우 드물게 활성화 된 혼합 혼합 변압기 아키텍처를 사용합니다. DeepSeek V3/R1에서 각 변압기 층에는 수백 개의 전문가 하위 네트워크가 있지만 토큰 당 소수만 활성화됩니다. 이는 모델의 모든 부분을 한 번에 실행하는 대신 수백 개의 전문가 네트워크를 가지고 있으며 각 입력에 필요한 것에 따라 몇 가지 (257 개 중 9 개) 만 활성화합니다. 이를 통해 DeepSeek은 각각의 응답 중에 약 370 억을 사용하는 반면 DeepSeek은 총 모델 크기 (6,700 억 개 이상)를 가질 수 있으므로 비슷한 크기의 밀집된 모델보다 훨씬 빠르고 저렴합니다. 다른 현대 LM과 마찬가지로 Swiglu 활성화, 로터리 임베드 (로프) 및 고급 최적화 (훈련 중 실험적 FP8 정밀도 포함)를 사용하여보다 효율적으로 만듭니다. 이 공격적인 MOE 디자인은 DeepSeek이 낮은 컴퓨팅 비용으로 매우 높은 기능 (훨씬 더 큰 조밀 한 모델과 비교할 수 있음)을 달성 할 수 있습니다.. DeepSeek의 모델 (공개 라이센스에 따라 출시)은 다국어 생성 및 추론에서 GPT-4와 같은 주요 모델을 경쟁하는 데 주목을 받았으며, 교육 및 추론 자원 요구 사항을 크게 줄였습니다.
Kanwal Mehreen Kanwal은 머신 러닝 엔지니어이자 데이터 과학에 대한 열정과 AI의 의학 교차점을 가진 기술 작가입니다. 그녀는 eBook “Chatgpt의 생산성을 극대화하는 것”을 공동 저술했습니다. APAC의 Google Generation Scholar 2022로서 그녀는 다양성과 학업 우수성을 챔피언시킵니다. 그녀는 또한 Tech Scholar, Mitacs Globalink Research Scholar 및 Harvard Wecode Scholar의 Teradata 다양성으로 인정 받고 있습니다. Kanwal은 STEM 분야의 여성에게 힘을 실어주기 위해 펨코드를 설립 한 변화에 대한 열렬한 옹호자입니다.
Post Comment