Grok 3 vs Deepseek R1 : 어느 것이 더 낫습니까?
불과 몇 달 전에 Deepseek은 V3, R1 및 Janus 모델로 AI 세계를 흔들 었습니다. 그리고 최근에 Elon Musk의 Grok 3이 파티에 합류했습니다! 지구상에서 가장 똑똑한 AI라는 주장에 따라 Grok 3의 기대는 상당히 높습니다. 런칭 이벤트에서 XAI 팀이 공유하는 공식 벤치 마크에 따르면, 이는 몬스터 모델 인 것으로 보이며 여러 벤치 마크에서 모든 경쟁 업체를 능가합니다. 그러나 실제로 당신과 나는 우리 일상 생활에서하는 정기적 인 일에 충분합니까? 모델에 액세스하기 위해 X Premium+ 계정에서 40 달러를 소비 할 가치가 있습니까? 이 기사의 끝까지 답을 확실히 알게 될 것입니다. 5 개의 다양한 프롬프트에서 Grok 3 vs Deepseek R1을 테스트하고 경쟁을 시작합시다!

작업 1 : 파이썬 코드 생성
즉각적인: “깊이 우선 검색을 사용하여 임의의 미로를 생성하기 위해 파이썬 기능을 작성하고 matplotlib를 사용하여 시각화하십시오.”
그로크 3
import random
import numpy as np
import matplotlib.pyplot as plt
def generate_maze(width, height):
"""
Generate a random maze using Depth-First Search and visualize it with Matplotlib.
Parameters:
width (int): Width of the maze (number of columns)
height (int): Height of the maze (number of rows)
"""
# Initialize the maze grid with walls (1) and paths (0)
maze = np.ones((height * 2 + 1, width * 2 + 1), dtype=int)
maze[1::2, 1::2] = 0 # Set paths (odd rows/columns) to 0
def carve_path(x, y):
"""
Recursively carve paths in the maze using DFS.
"""
directions = [(0, 2), (2, 0), (-2, 0), (0, -2)] # Down, Right, Up, Left
random.shuffle(directions)
for dx, dy in directions:
new_x, new_y = x + dx, y + dy
if (0
DeepSeek R1 :
import random
import matplotlib.pyplot as plt
def generate_maze(width, height):
# Initialize the grid with walls (1)
grid = [[1 for _ in range(width)] for _ in range(height)]
# Starting point
start_x, start_y = 1, 1
grid[start_y][start_x] = 0
# Stack for DFS
stack = [(start_x, start_y)]
# Directions: up, right, down, left
directions = [(0, -2), (2, 0), (0, 2), (-2, 0)]
while stack:
x, y = stack[-1]
random.shuffle(directions)
for dx, dy in directions:
nx, ny = x + dx, y + dy
if 0
산출:

관찰:
Deepseek R1 출력은 전문적으로 생성 된 명확하고 잘 구조화 된 미로를 나타냅니다. 날카 롭고 일관된 벽은 적절하게 밀폐 된 미로를 만들어 도전적이고 시각적으로 깨끗한 경로 변형 경험을 보장합니다. 그것은 좋은 미로 생성 원칙을 고수하여 기능적이고 미적으로 즐겁게 만듭니다.
대조적으로, Grok 3 출력은 픽셀 화 된 것으로 보이며, 두꺼운 흑백 그리드 구조로 인해 덜 구별 가능한 경로로 나타납니다. 전체 디자인은 DeepSeek R1에 비해 정의되지 않은 경로로 더 혼란스러워합니다. DFS (Depth-First Search) 생성을 활용하지만 시각적 선명도와 유용성은 상당히 열등하여 덜 효과적인 미로 표현이됩니다.
평결:
Grok 3. | Deepseek R1 1
작업 2 : 웹 검색
DeepSeek R1이 웹 검색을 허용하지 않으므로이 작업에 DeepSeek 검색 옵션을 사용했습니다!
즉각적인: “2025 년 현재 핵 융합 기술의 최신 발전은 무엇입니까? 출력에서 – 발전 목록 +출처”
관찰:
DeepSeek R1과 Grok 3 사이에서 DeepSeek R1은 핵 융합 기술의 발전과 같은 연구가 많은 쿼리에 응답하는 데 더 나은 모델입니다. DeepSeek R1의 가장 큰 장점은 모든 클레임에 대한 직접적이고 클릭 가능한 소스 링크를 제공하여 투명성과 신뢰성을 보장한다는 것입니다. 또한 퓨전 연료 기술, 민간 부문 투자, 규제 변경 및 정부 이니셔티브를 포함하여 광범위한 발전을 다루고 응답을보다 포괄적으로 만듭니다. 또한, 그 출처는 ITER, UKAEA 및 US DOE와 같은 권위있는 플랫폼에서 나옵니다. 이는 신뢰성을 크게 향상시킵니다.
반면에 Grok 3은 더 나은 설명 깊이를 제공하지만 직접 소스 링크가 포함되지 않기 때문에 신뢰성이 부족합니다. 대신, 적절한 인용없이 BBC News 또는 MIT 뉴스와 같은 뉴스 매체를 모호하게 언급합니다. 주요 약점은 종종 검증되지 않은 청구를 포함하는 X (Twitter)의 게시물에 의존하는 것입니다. Grok 3은 이러한 한계를 인정하지만 구체적인 원인이 부족하면 사실 연구에 덜 신뢰할 수 있습니다.
평결:
Grok 3. | Deepseek R1 1
작업 3 : HTML을 사용한 기본 애니메이션
즉각적인: “정사각형 내부에서 지속적으로 회전하는 빨간색 공을 위해 HTML + CSS 코드를 만듭니다.”
Grok 3 :
Rotating Red Ball in Square
DeepSeek R1 :
산출:
관찰:
분명히 Grok 3은 프롬프트를 해석하고 올바른 응답을 생성하기 위해 고군분투하고 있습니다. DeepSeek R1은 응답하는 데 약 8-10 분이 걸렸지 만 출력은 더 정확하고 정확합니다.
평결:
Grok 3. | Deepseek R1 1
작업 4 : 이미지 분석
즉각적인: “이 체스 판 위치를 분석하십시오. 현재 플레이어 (흰색)가 블랙을 확인하고 추론을 설명하기위한 최선의 움직임을 제안하십시오.“

Grok 3 :

DeepSeek R1 :

관찰:
Grok 3과 Deepseek R1은 모두 답을 얻었습니다. Grok 3은 E4-E5를 제안했으며, 이는 수표를 제공하거나 왕을 위협하지 않습니다. DeepSeek R1은 QE1#을 제안했지만,이 움직임은 주어진 위치에서 불가능하여 보드를 잘못 해석 한 것을 보여줍니다. 올바른 움직임은 QF7#이었습니다. 여왕은 검은 왕을 갇혀 체크 메이트를 전달합니다. Grok 3은 즉시 확인 동료를 인식하지 못했고 DeepSeek R1은 실제 위치를 분석하는 대신 잘못된 보드 설정을 가정했습니다.
평결:
Grok 3. | Deepseek R1 1
과제 5 : 논리적 추론
즉각적인: “이 얼룩말 퍼즐을 해결하십시오. 테이블에 출력을주세요.”

Grok 3 :

퍼즐에 생성 된 응답을 넣으십시오.

DeepSeek R1 :

퍼즐에 생성 된 응답을 넣으십시오.

관찰:
DeepSeek R1은 다시 응답하는 데 시간이 오래 걸렸지 만 정답을주었습니다. Grok 3은 이미지를 이해하지 못했고 잘못된 출력을 제공했습니다.
평결:
Grok 3. | Deepseek R1 1
Grok 3 vs Deepseek R1 : 결과
파이썬 코드 생성 | Deepseek R1 |
웹 검색 | Deepseek R1 |
기본 애니메이션 (HTML + CSS) | Deepseek R1 |
이미지 분석 (체스 판 체크 메이트) | 둘 다 실패했습니다 |
논리적 추론 (얼룩말 퍼즐) | Deepseek R1 |
또한 읽기 :
끝 참고
Elon Musk의 Grok 3은 AI에서 게임 체인저로 과장되어 지구상에서 가장 똑똑한 모델이라고 주장했습니다. 그러나 실제 테스트에서는 기대에 부응하지 못했습니다. 여러 작업에 걸쳐 Grok 3은 정확성, 논리적 추론 및 복잡한 문제 해결으로 어려움을 겪었으며 종종 부정확하거나 구조화되지 않은 응답을 생성합니다. 한편, DeepSeek R1은 지속적으로 성능이 우수하여 코드 생성, 웹 검색 및 논리적 추론과 같은 주요 영역에서보다 정확하고 구조적이며 검증 가능한 답변을 제공했습니다.
대담한 마케팅 주장에도 불구하고 Grok 3은 여전히 최고 AI 모델과 경쟁하기 전에 갈 길이 멀다. 기본 추론 작업에 실패했다는 사실은 XAI가 교육 접근 방식에서 큰 개선이 필요하다는 것을 시사합니다. 그러나 Musk의 빠른 반복 및 개선에 대한 기록을 감안할 때 향후 업데이트가 이러한 격차를 해소 할 수 있는지 확인하는 것이 흥미로울 것입니다. Grok 3은 AI 강국으로 발전 할 것인가, 그것이 과장된 실험으로 남아 있을까요? 시간이 말할 것입니다.
Grok 3 업데이트를 정기적으로 따르기 위해 분석 Vidhya 블로그를 계속 지켜봐주십시오!
Post Comment