Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다

Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다

중국 AI 모델은 최근 AI 추론의 환경을 재구성 할 것을 약속하는 모델 인 Kimi K1.5의 개발을 초래 한 LLM (Lange Language Model)을 갖춘 최근 강화 학습 (RL)의 발전으로 Kimi K1.5의 발전으로 이어졌습니다. 이 기사는 Kimi K1.5의 주요 기능, 혁신 및 영향을 탐구하여 연구 논문의 통찰력을 도출합니다.

Kimi K1.5는 무엇입니까?

Kimi K1.5는 LLM으로 강화 학습을 스케일링하는 데있어 중요한 단계를 나타냅니다. Monte Carlo Tree Search와 같은 복잡한 방법에 의존하는 전통적인 모델과 달리,자가 회귀 예측 및 강화 학습 기술에 중점을 둔보다 간소화 된 접근 방식을 채택합니다. 이 모델은 다중 모드 작업을 처리하도록 설계되었으며, 특히 Math Vista 및 Live Code Bench와 같은 벤치 마크에서 우수합니다.

Kimi K1.5는 무엇입니까?

Kimi K1.5는 강화 학습 (RL)을 통합하여 추론 능력을 향상시키는 최첨단 대형 언어 모델 (LLM)입니다. 주요 기능은 다음과 같습니다.

  • 강화 학습 통합: Kimi K1.5는 상호 작용과 피드백을 통해 솔루션을 동적으로 적응하고 탐색 할 수 있습니다.
  • 간소화 된 프레임 워크:이 모델은 효과적인 RL 전략과 결합 된 자동 회귀 예측에 중점을 두어 교육 효율성을 향상시켜 전통적인 방법을 단순화합니다.
  • 멀티 모달 기능: 텍스트와 시각적 데이터와 관련된 작업이 탁월하며 Math Vista 및 Live Code Bench와 같은 벤치 마크에서 잘 수행됩니다.
  • 최신 성과: Kimi K1.5는 다양한 추론 벤치 마크에서 인상적인 점수를 얻어 문제 해결에서 경쟁 우위를 보여줍니다.

키미 K1.5 훈련

Kimi K1.5의 교육 프로세스는 강화 학습 (RL) 및 멀티 모달 통합을 통해 추론 능력을 향상시키기 위해 설계된 포괄적이고 다단계 접근 방식입니다. 교육 과정의 고장은 다음과 같습니다.

1. 사전 배치 단계

  • 데이터 수집: 다양한 영역 (영어, 중국어, 코딩, 수학 및 지식) 및 시각적 데이터의 텍스트를 포함하는 다양하고 고품질의 멀티 모달 코퍼스에 사귀합니다.
  • 품질 관리: 엄격한 필터링 프로세스를 통해 교육 데이터가 관련성이 높고 다양하여 모델의 기초 지식을 향상시킵니다.

2. 감독 미세 조정 (SFT)

  • 바닐라 SFT: 사전 조정 후, 모델은 바닐라 감독 된 미세 조정 단계를 겪으며, 여기서 다른 작업에 걸쳐 약 1 백만 개의 예제의 선별 된 데이터 세트에서 학습됩니다.
  • 긴 코트 SFT:이 단계는 복잡한 문제에 대한 상세한 추론 경로를 생성하도록 모델이 훈련 된 Thought of Thought (COT) 추론에 중점을 둡니다.

3. 강화 학습 (RL)

  • RL 프롬프트 세트 큐 레이션: 효과적인 RL 교육을 위해서는 잘 구성된 프롬프트 세트가 필수적입니다. 이 프롬프트는 광범위한 어려움과 영역을 다루도록 설계되어 다양한 적용 범위와 정확한 평가 가능성을 보장합니다.
  • RL과의 교육:이 모델은 일련의 추론 단계를 통해 솔루션을 생성하는 법을 배우는 정책 모델을 사용하여 교육을받습니다. 이 훈련에는 응답의 정확성을 평가하는 보상 모델에 의해 안내되는자가 회귀 방식으로 생각과 최종 답변을 샘플링하는 것이 포함됩니다.
  • 정책 최적화: Kimi K1.5는 정책 최적화를 위해 온라인 미러 출신의 변형을 사용하여 모델이 추론 전략을 반복적으로 개선 할 수 있습니다.

4. 부분 롤아웃

Kimi K1.5는 긴 컨텍스트 기능을 효과적으로 관리하기 위해 부분 롤아웃 기술을 사용합니다. 이 방법을 사용하면 모델이 후속 반복의 연속을 위해 미완성 된 부분을 저장하여 계산 효율을 최적화하여 긴 추론 궤적을 처리 할 수 ​​있습니다.

5. 길이 페널티 및 샘플링 전략

간결한 추론을 장려하기 위해 길이의 페널티가 도입되어 모델이 지나치게 긴 응답을 생성하지 못하게합니다. 또한, 커리큘럼과 우선 순위 지정된 샘플링 전략은 처음에는 더 쉬운 작업에 중점을두고보다 도전적인 문제를 점차적으로 해결하기 위해 사용됩니다.

6. 평가 및 반복

훈련 과정 전체에서 Kimi K1.5는 다양한 벤치 마크에 대해 평가하여 성능을 평가합니다. 이 모델은 이러한 평가의 피드백을 기반으로 반복 업데이트를 거쳐 추론 기능을 지속적으로 개선합니다.

Kimi K1.5 시스템 개요

앞에서 설명한 바와 같이, 여기에서 Kimi K1.5의 훈련 아키텍처가 있습니다.

Kimi K1.5 부분 롤아웃

Kimi K1.5 벤치마킹

Kimi K1.5는 추론 능력을 평가하기 위해 다양한 도전적인 작업에 대해 엄격하게 평가되었습니다. 결과는 다양한 도메인에서 최첨단 성능을 보여줍니다.

주요 결과

  • 수학 whiz : Kimi K1.5는 Aime 2024에서 77.5의 완벽한 점수를 얻었으며 Openai O1 (74.4) 및 Openai O1 Mini (63.6)와 같은 모델을 능가했습니다. Math-500에서는 96.2 점수로 Openai O1을 넘어서서 96.2를 수행했습니다.
  • 코딩 : Kimi K1.5는 강력한 코딩 능력을 보여 주었으며, Codeforces에서 Openai O1과 동일한 94 점을 달성하여 O1-MINI 및 QWQ 72B 미리보기의 성능을 초과했습니다.
  • 비전: Kimi K1.5는 인상적인 시각적 추론 기술을 보여 주었으며, QVQ 72B (71.4) 및 OpenAi O1-Mini (71)와 같은 모델을 능가하는 MathVista_test에서 완벽한 점수를 얻었습니다.
  • 일반적인 지식 : Kimi K1.5는 MMLU (EM)에서 87.4 점을 기록한 도메인에서 광범위한 지식을 보여 주었고 OpenAI 4O (87.2)와 같은 성능이 뛰어났습니다.

추론 전략

  • Kimi K1.5는 단기간과 긴 사슬의 사슬을 모두 활용하여 문제를 해결하여 추론 접근 방식에서 적응성을 보여줍니다.

Kimi K1.5 주요 혁신

긴 맥락 스케일링

Kimi K1.5의 눈에 띄는 기능 중 하나는 최대의 확장 컨텍스트를 처리하는 능력입니다. 128,000 토큰. 이 기능을 통해 모델은 부분 롤아웃을 재사용하여 복잡한 추론 작업을보다 효율적으로 처리 할 수 ​​있으며, 이는 성능을 향상시키는 동시에 계산 리소스를 보존합니다.

사고의 사슬

효과적으로 결합됩니다 장거리 사고 (COT) 그리고 짧은 침대 추론 전략. 이 이중 접근 방식을 통해 모델은 더 간단한 작업에 대한 효율성을 유지하면서 필요할 때 깊은 추론에 참여할 수 있습니다.

강화 학습 파이프 라인

Kimi K1.5 용 RL 파이프 라인은 세 심하게 설계되었습니다.

  • 신속한 큐 레이션: 다양한 도메인을 다루는 다양한 프롬프트는 포괄적 인 훈련을 보장합니다.
  • 감독 된 미세 조정: 초기 교육은 상세한 추론 경로에 중점을 두어 모델이 일관된 단계별 논리를 배울 수 있습니다.
  • 정책 최적화: 온라인 정책 거울 오신과 같은 기술은 과적으로 피적을 방지하면서 모델의 성능을 최적화하는 데 도움이됩니다.

성능 지표

여러 벤치 마크에서 놀라운 성능을 보여주었습니다.

  • 그것은 GPT-4 및 Claude Sonnet 3과 같은 모델보다 중요한 여백을 능가합니다. 550% 어떤 경우에는.
  • 특정 벤치 마크에서는 점수를 달성합니다 77.5% 수학 작업과 순위를 목표로합니다 94 번째 백분위 수 코딩 도전에.

멀티 모달 데이터 처리

아키텍처를 통해 텍스트와 시각적 데이터를 효과적으로 처리 할 수 ​​있습니다. 이 모델은 실제 이미지 및 합성 데이터를 포함하여 다양한 유형의 데이터를 처리하기위한 다양한 전략을 사용하여 다양한 기술 세트가 필요한 작업에서 다양성을 향상시킵니다.

Deepseek R1 vs Kimi K1.5

DeepSeek R1과 Kimi K1.5는 각각 고유 한 강점을 가진 큰 언어 모델 개발에 대한 두 가지 다른 접근법을 나타냅니다. 둘 다 고급 추론 능력을 달성하는 것을 목표로하지만, 기본 아키텍처와 훈련 방법론에서 크게 다릅니다. 이러한 차이는 복잡한 작업, 특히 광범위한 맥락이나 역동적 인 문제 해결이 필요한 작업을 처리하는 방식의 변화로 이어집니다. 다음 섹션에서는 Kimi K1.5의 혁신적인 디자인 선택이 DeepSeek R1과 어떻게 차별화되는지 탐구하면서 이러한 주요 차이점을 탐구합니다.

1. 건축 적 차이

  • K1.5:
    • 강화 학습 (RL)을 자동 회귀 예측과 통합하는 간소화 된 아키텍처를 사용하여 멀티 모달 작업을 효율적으로 처리 할 수 ​​있습니다.
    • 최대 128,000 개의 토큰의 확장 컨텍스트를 처리 할 수있어 복잡한 추론 작업을 관리하는 능력이 향상됩니다.
  • Deepseek R1:
    • DeepSeekR1의 특정 아키텍처 세부 사항은 덜 강조되지만 일반적으로 RL 또는 확장 컨텍스트 처리의 이점을 완전히 활용하지 못하는 기존의 LLM 프레임 워크를 사용합니다.
    • 모델 교육 및 추론에 대한보다 전통적인 접근 방식에 중점을 두어 동적 문제 해결 시나리오에서 적응성을 제한 할 수 있습니다.

2. 훈련 방법론

  • K1.5:
    • 다양한 다중 모드 코퍼스의 사전화, 감독 된 미세 조정 및 강력한 RL 파이프 라인에 대한 포괄적 인 다중 단계 교육 프로세스를 따릅니다.
    • 교육 효율성을 최적화하고 간결한 추론을 장려하기 위해 부분 롤아웃 및 길이 처벌과 같은 혁신적인 기술을 통합합니다.
  • Deepseekr1:
    • 주로 RL 전략의 광범위한 통합없이 표준 감독 학습 기술에 의존합니다.
    • 부분 롤아웃과 같은 고급 교육 기술을 활용하지 못할 수 있으며, 이는 더 긴 추론 작업을 처리 할 때 성능에 영향을 줄 수 있습니다.

더 알아 보려면 : Kimi K1.5 vs Deepseek R1 : 최고의 중국 LLM의 전투

Kimi K1.5에 액세스하는 방법?

여기서 우리는 API를 사용하여 Kimi K1.5에 액세스하고 사용하는 방법을 볼 것입니다.

Kimi K1.5의 API 액세스

  • Kimi의 관리 콘솔에 로그인하십시오
  • 전화 번호에 계정을 등록하십시오
  • API 키 관리를 클릭하십시오
  • 새 생성을 클릭하고 이름을 입력하십시오
  • API 키는 SK-XXXXXXXXXXX처럼 보입니다

Kimi K1.5에 전화하는 예는 다음과 같습니다.

from openai import Client
client = Client(
 api_key="YOUR_KIMI_KEY",
 base_url="
)
messages = [
 {
     "role": "user",
     "content": "The lengths of the two legs of a right triangle are 3 cm and 4 cm respectively. Find the length of the hypotenuse of this right triangle.",
 },
]

이 코드는 API 키와 기본 URL을 사용하여 Kimi (Moonshot AI) API 클라이언트를 초기화 한 다음 3-4-5 오른쪽 삼각형의 hypotenuse를 요구하는 사용자 메시지를 준비합니다. 처리를 위해이 메시지를 Kimi API에 보낼 준비가되었습니다.

stream = client.chat.completions.create(
 model="kimi-k1.5-preview",
 messages=messages,
 temperature=0.3,
 stream=True,
 max_tokens=8192,
)

지정된 모델, 온도 및 토큰 제한을 사용하여 준비된 메시지를 Kimi API에 보냅니다. 그리고 잠재적으로 긴 출력을 처리하기 위해 스트리밍 응답을 설정합니다. Kimi로부터 단계별 또는 청크 대답을 받도록 설계되었습니다.

for chunk in stream:
 if chunk.choices[0].delta:
     if chunk.choices[0].delta.content:
         print(chunk.choices[0].delta.content, end="")

Kimi API의 스트리밍 응답을 통해 반복됩니다. 응답의 각 덩어리에 대해 새로운 텍스트 내용이 있는지 확인합니다 (chunk.choices[0].delta.content). 그렇다면 해당 텍스트를 콘솔에 인쇄하여 모델의 응답을 생성 할 때 실시간으로 효과적으로 표시합니다.

또한 읽으십시오 : Kimi K1.5 vs Openai O1 : 어떤 더 나은 추론 모델입니까?

결론

Kimi K1.5는 여러 도메인에서 최첨단 성능을 달성하면서 강화 학습 설계를 단순화하여 생성 AI 추론 모델에서 중추적 인 발전을 나타냅니다. 컨텍스트 길이를 스케일링하고 멀티 모달 데이터 위치를 현장에서 주요 모델로 통합하는 혁신적인 접근 방식. 우리가 앞으로 나아갈 때, 그러한 발전의 영향은 학문적 연구를 넘어 산업 전반에 걸쳐 실제 적용으로 확장되어 복잡한 추론이 가능한 새로운 지능형 시스템 시대를 촉진 할 것입니다.

더 멋진 콘텐츠를 위해 분석 Vidhya 블로그를 계속 지켜봐 주시기 바랍니다!

가혹한 미쉬라

Harsh Mishra는 AI/ML 엔지니어로 실제 인간보다 큰 언어 모델과 대화하는 데 더 많은 시간을 소비합니다. Genai, NLP에 대한 열정 및 기계를 더 똑똑하게 만드는 데 열정적입니다 (따라서 아직 그를 대체하지 않습니다). 모델을 최적화하지 않을 때는 아마도 커피 섭취를 최적화하고있을 것입니다. 🚀☕

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다