Qwen2.5-Max vs Deepseek-R1 vs Kimi K1.5 : 어느 쪽이 최고입니까?
중국의 새해 음력이며 세계가 축하하고 있습니다! 중국 회사가 다른 놀라운 모델을 출시 한 덕분에. Alibaba는 최근에 Openai, Deepseek & Llama에서 자이언츠를 대체하는 모델 인 Qwen2.5-Max를 출시했습니다. 고급 추론과 이미지 및 비디오 생성으로 가득한이 모델은 Genai 세계를 흔들 리도록 설정되었습니다. 이 블로그에서는 현재 최고의 LLM을 찾기 위해 여러 전선에서 Qwen2.5-Max, Deepseek-R1 및 Kimi K1.5의 성능을 비교할 것입니다!
Qwen2.5-Max, Deepseek-R1 및 Kimi K1.5 소개
- qwen2.5-max : Alibaba Cloud의 폐쇄 소스 멀티 모달 LLM으로 20 조 변동이 넘는 매개 변수로 훈련되고 RLHF를 사용하여 미세 조정됩니다. 이미지와 비디오를 생성 할 수있는 능력으로 고급 추론 기능을 보여줍니다.
- DeepSeek-R1 : DeepSeek의 오픈 소스 모델로 감독 된 미세 조정으로 강화 학습을 사용하여 교육을 받았습니다. 이 모델은 논리적 사고, 복잡한 문제 해결, 수학 및 코딩에 탁월합니다.
- K1.5 : Moonshot AI의 오픈 소스 멀티 모달 LLM으로 간단한 프롬프트에서 많은 양의 콘텐츠를 처리 할 수 있습니다. 100 개 이상의 웹 사이트에서 실시간 웹 검색을 수행하고 한 번에 여러 파일로 작업 할 수 있습니다. 이 모델은 STEM, 코딩 및 일반적인 추론과 관련된 작업에서 훌륭한 결과를 보여줍니다.

Qwen2.5-Max vs Deepseek-R1 vs Kimi K1.5 : 기술 비교
기술 세부 사항부터 시작하여 Qwen2.5-Max, Deepseek-R1 및 Kimi K1.5를 비교해 보겠습니다. 이를 위해이 3 가지 모델의 벤치 마크 성능과 기능을 비교할 것입니다.
벤치 마크 성능 비교
사용 가능한 데이터를 기반으로 다양한 표준 벤치 마크 테스트에서 QWEN2.5-MAX가 DeepSeek-R1 및 Kimi K1에 대해 수행하는 방법이 있습니다.

- 라이브 코드 벤치 : 이 벤치 마크는 각 모델이 작성, 디버깅 또는 코드 이해를 포함하여 코딩 작업을 처리하는 방법을 결정합니다. Kimi K1.5와 Qwen2.5-Max는 거의 묶여 있으며 코드 스 니펫을 생성하고 구문 분석 할 수 있음을 나타냅니다.
- GPQA (일반 목적 질문 응답) : 이 벤치 마크는 추론, 맥락 기반 이해 및 사실 지식과 같은 여러 영역에 대한 질문을 이해하고 해결하는 모델의 능력을 평가합니다. 이 벤치 마크에서 DeepSeek R1은 QWEN2.5-MAX를 상당한 마진으로 이끌고 지배력을 강조합니다.
- MMLU:이 벤치 마크는 다양한 영역 (수학, 과학, 인문학 등)에서 다중 개체 지식 및 언어 이해를 테스트합니다. QWEN2.5-MAX는 DeepSeek R1을 이끌어 다양한 학업 및 실제 주제를 더 잘 이해하고 있습니다.
- C-Eval (종합 평가) : 이 벤치 마크는 미묘한 고급 추론 질문을 다룹니다. QWEN2.5-MAX는 Kimi K1.5에 비해이 매개 변수에서 더 나은 성능을 보여 주므로 더 나은 추론 모델입니다.
기능 비교
세 가지 모델 각각에는 다양한 기능을 제공하는 자체 웹 채팅 인터페이스가 있습니다. 다음은 기능과 관련하여 QWEN2.5-MAX가 동료에 대해 수행하는 방법입니다.
특징 | qwen2.5-max | Deepseek-R1 | K1.5 |
---|---|---|---|
이미지 분석 | 아니요 | 예 | 예 |
웹 인터페이스 | 예 | 예 | 예 |
이미지 생성 | 예 | 아니요 | 아니요 |
웹 검색 | 아니요 | 예 | 예 |
유물 | 예 | 아니요 | 아니요 |
문서 업로드 | 하나의 | 다수의 | 다수의 |
일반적인 문구 | 아니요 | 아니요 | 예 |
Qwen2.5-Max vs Deepseek-R1 vs Kimi K1.5 : 응용 프로그램 기반 분석
이제 응용 프로그램을 기반으로 현재 3 개의 중국 모델 인 QWEN2.5-MAX, DEEPSEEK-R1 및 KIMI K1.5를 비교해 봅시다. 이를 위해 우리는 추론, 다단계 처리 및 코딩과 관련된 세 가지 다른 작업에서 성과를 테스트 할 것입니다.
우리는 세 가지 모델 모두에 동일한 프롬프트를 제공하고 응답을 비교하여 성능에 따라 0, 0.5 및 1의 점수를 제공합니다. 결국, 우리는 그 중 어느 것이 최고인지 알아 내기 위해 점수를 집계 할 것입니다. 그래서 시작합시다.
과제 1 : 고급 추론
즉각적인: “지구가 둥글다는 것을 수학적으로 증명하십시오”
출력
qwen2.5-max | Deepseek-R1 | K1.5 |
---|---|---|
기하학, 중력, 위성 운동 및 역사적 실험을 사용하여 지구가 둥글다는 것을 수학적으로 보여주었습니다. 수평선의 곡률, 중력의 균일 성 및 위성 궤도의 일관성은 모두이 결론을 뒷받침합니다. | Eratosthenes는 두 위치 사이의 그림자와 거리의 각도 차이를 사용하여 지구의 둘레를 계산함으로써 지구의 구형 모양을 수학적으로 입증했습니다. 현대적인 측정 및 관찰 (예 : Horizon Curvature, Lunar Eclipses)이이를 확인합니다. | 구형 기하학 (예 : d = rθ)으로 측정 된 거리와 각도의 일관성은 지구가 둥글다는 것을 증명합니다. 플랫 아이스 모델은 이러한 관계를 설명하지 못합니다. |
내 분석
qwen2.5-max | Deepseek-R1 | K1.5 |
---|---|---|
이 모델은 주장을 뒷받침하는 몇 가지 주요 관찰을 제공했습니다. 그런 다음 구의 형상, 수평선 곡률, 회전 및 원심력 및 필요하지 않은 다른 매개 변수를 다루었습니다. 이 매개 변수의 일부로“Eratosthenes ‘실험”을 다루었습니다. | 이 모델은 주어진 작업에 대한 증거를 제공하기 위해 모든 수학적 계산과 함께 이론을 간략하게 설명했습니다. 또한 결과를 설정하기위한 몇 가지 주요 관찰과 함께 추가 증거를 제공했습니다. 이 모델은 Eratosthenes의 실험을 사용하여 증거를 설정했습니다. | 이 모델은 가장 명확하고 간결한 응답을 제공했습니다. 그것은 작은 수학적 계산으로 가설을 증명했습니다. 그것은 명시 적으로 언급하지 않고 Eratosthenes 실험의 측정을 사용했습니다. |
지구의 곡률에 대한 가장 관련성있는 증거는 Eratosthenes의 방법 (기원전 240 년경)과 관련된 증거 일 것입니다. 왜냐하면 그것은 두 곳 사이의 각도 차이에 대한 수학적 분석과 관련된 가장 오래되고 가장 포괄적 인 증거 중 하나이기 때문입니다. 세 가지 모델 모두 어떤 방식 으로든 그 접근법을 사용했습니다.
Qwen2.5-Max는 지구가 적절한 설명없이 둥글다는 것을 증명하는 8 가지 방법을 제공했습니다. DeepSeek-R1은 Eratosthenes의 방법을 취했습니다-이론과 수학을 간결하고 명확한 용어로 설명했습니다. Kimi K 1.5는 명시 적으로 언급하지 않고 필요한 방법을 기반으로 가장 간단한 접근법을 사용했습니다.
점수 : Qwen2.5-Max : 0 | DeepSeek-R1 : 0.5 | 키미 K1.5 : 1
작업 2 : 다단계 문서 처리 및 분석
즉각적인: “레슨을 1 줄로 요약하고, 수업에서 일어나는 과정을 설명하기 위해 흐름도를 만들고, 요약을 프랑스어로 번역하십시오.
🔗 수업“
출력

내 분석
qwen2.5-max | Deepseek-R1 | K1.5 |
---|---|---|
요약은 간결하고 수업에서 다루는 주제를 제시했습니다. | 수업의 요약은 선명하고 간결하며 요점에 이르렀습니다. | 요약은 모든 주제를 다루었으며 매우 간단했지만 다른 주제에 비해 조금 길었습니다. |
흐름도는 필요에 따라 모든 필수 제목과 소제목을 다루었습니다. | 유량 차트는 모든 필수 제목을 다루었지만 하위 헤드에서 필요한 컨텐츠 이상의 것이 었습니다. | 수업에 대한 흐름도 대신 모델은 수업에서 다루는 프로세스에서 유량 차트를 생성했습니다. 전반적 으로이 유량 차트는 명확하고 선명했습니다. |
나는 DeepSeek-R1과 Qwen2.5-Max에 의해 생성 된 단순하고 바삭 바삭한 한 줄 요약을 원했습니다. 그러나 흐름도의 경우 Kimi K1.5에 의해 생성 된 결과의 설계와 선명도는 정확한 요청 이었지만 수업의 흐름에 대한 세부 사항이 부족했습니다. DeepSeek-R1의 흐름도는 약간의 내용이 많았으며 QWEN2.5-MAX는 모든 필수 요소를 다루는 우수한 흐름도를 제공했습니다.
점수 : Qwen2.5-Max : 1 | DeepSeek-R1 : 0.5 | 키미 K1.5 : 0.5
작업 3 : 코딩
즉각적인: “Wordle 종류의 앱에 대한 HTML 코드 작성”
메모: Qwen2.5-Max에 프롬프트를 입력하기 전에 아티팩트를 클릭하면 채팅 인터페이스 내에서 코드의 출력을 시각화 할 수 있습니다.
산출:
qwen2.5-max :
DeepSeek-R1 :
K1.5 :
내 분석 :
qwen2.5-max | Deepseek-R1 | K1.5 |
---|---|---|
이 모델은 코드를 빠르게 생성하고 앱 자체는 실제 “Wordle App”과 비슷합니다. 바닥에 나열된 알파벳 대신 5 글자를 직접 입력하는 옵션을 제시했습니다. 그런 다음 보드에서 해당 편지를 자동으로 업데이트합니다. | 모델은 코드를 생성하는 데 약간의 시간이 걸리지 만 출력은 훌륭했습니다! 생성 된 출력은 실제 “Wordle App”과 거의 동일했습니다. 우리는 추측을 시도하고자하는 알파벳을 선택할 수 있으며 그들은 우리의 선택을 단어에 넣을 것입니다. | 모델은 코드를 충분히 빠르게 생성합니다. 그러나 코드의 출력은 실제 “Wordle App”의 왜곡 된 버전이었습니다. 워드 보드가 나타나지 않았으며 모든 편지도 마찬가지였습니다. 실제로, Enter and Delete 기능은 거의 알파벳 위에 왔습니다. |
아티팩트 기능을 사용하면 코드를 바로 분석하기가 매우 쉽습니다. | 그것의 유일한 문제는 코드를 복사하여 다른 인터페이스로 실행해야한다는 것입니다. | 이 외에도 출력을 시각화하기 위해이 코드를 다른 인터페이스로 실행해야했습니다. |
첫째, 앱이 가능한 한 실제 Wordle 앱과 유사하게 생성되기를 원했습니다. 둘째, 생성 된 코드를 테스트하는 데 최소한의 노력을 기울이고 싶었습니다. DeepSeek-R1에 의해 생성 된 결과는 Ask에 가장 가깝고 Qwen-2.5의 상당히 좋은 결과는 테스트하기가 가장 쉬운 결과였습니다.
점수 : Qwen2.5-Max : 1 | DeepSeek-R1 : 1 | 키미 K1.5 : 0
최종 점수
qwen2.5-max : 2 | DeepSeek-R1 : 1.5 | 키미 K1.5 : 1.5
결론
QWEN2.5-MAX는 DeepSeek-R1 및 Kimi K1.5 강력한 경쟁과 같은 모델을 제공하는 놀라운 LLM입니다. 그 응답은 모든 다른 작업에서 비교할 수있었습니다. 현재 이미지를 분석하거나 웹을 검색 할 수있는 힘이 부족하지만 일단 해당 기능이 실시되면; QWEN2.5-MAX는 타의 추종을 불허하는 모델이 될 것입니다. 이미 GPT-4O조차 아직 보유하지 않은 비디오 생성 기능을 가지고 있습니다. 또한, 인터페이스는 아티팩트와 같은 기능을 갖춘 매우 직관적이므로 동일한 플랫폼 내에서 코드를 실행하는 것이 더 간단합니다. Alibaba의 Qwen2.5-Max는 우리가 LLM과 함께 일하는 방법을 재정의하는 만능 LLM입니다!
자주 묻는 질문
A. QWEN2.5-MAX는 알리바바의 최신 멀티 모달 LLM이며, 20 조 변동이 넘는 매개 변수로 텍스트, 이미지 및 비디오 생성에 최적화되었습니다.
A. DeepSeek-R1 및 Kimi K1.5와 비교하여 추론, 멀티 모달 컨텐츠 제작 및 프로그래밍 지원에 탁월하여 중국 AI 생태계에서 강력한 경쟁자가되었습니다.
A. 아니요, QWEN2.5-MAX는 폐쇄 소스 모델이며 DeepSeek-R1 및 Kimi K1.5는 오픈 소스입니다.
A. 예! Qwen2.5-Max 모델은 이미지 및 비디오 생성을 지원합니다.
A. 예, DeepSeek-R1과 Kimi K1.5는 실시간 웹 검색을 지원하는 반면 QWEN2.5-MAX는 현재 웹 검색 기능이 부족합니다. 이것은 DeepSeek-R1과 Kimi에게 최신 온라인 정보를 검색하는 데 우위를 점합니다.
A. 유스 케이스에 따라 다음을 선택하십시오.
-Qwen2.5-max: 멀티 모달 기능 (텍스트, 이미지, 비디오)과 고급 AI 추론이 필요한 경우.
-DeepSeek-R1 : 오픈 소스 모델, 우수한 질문 응답 성능 및 웹 검색 통합의 유연성을 원한다면.
– K1.5 : 효율적인 문서 처리, STEM 기반 문제 해결 및 실시간 웹 액세스가 필요한 경우.
Post Comment