AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 1월 29, 2025 0 Comments

Deepseek은 AI를 30 번 저렴하게 훈련 시켰습니까?

DeepSeek은 지금 어디에서나 트위터, 링크드 인 및 AI 세계 전역의 대화에 있습니다. 사람들은이 회사가 어떻게“불가능한”일을했는지에 대해 이야기하는 것을 멈출 수 없습니다. AI 교육은 일반적으로 비싸고 자원이 풍부하지만 DeepSeek은 단지 모델을 훈련시키는 방법을 찾았습니다. 1/30 평소 비용. 요즘 모든 것이 “최첨단”이라고 주장하지만 DeepSeek은 “최고”가 더 이상 충분하지 않다는 것을 증명하고 있습니다. 그것은 경계를 밀고 다른 사람들이 불가능하다고 생각한 것을 달성하는 것입니다.

과대 광고에 무엇이 추가 되는가? DeepSeek 앱은 바이러스에 빠졌습니다. 그것은 단지 잘 수행하는 것이 아닙니다 – 그것은 앱 스토어 차트의 상단chatgpt와 같은 큰 이름조차도. 이 바이러스 성 이미지는 인터넷 전체에 순환되었습니다.

그래서 DeepSeek은 어떻게 이것을 뽑았습니까? 가능한 가장 간단한 방법으로 비밀을 분해합시다.

1. 멋진 칩도없고 스마트 최적화 만 있습니다

많은 사람들은 고급 AI 칩에 대한 미국의 수출 제한이 DeepSeek의 기능을 제한 할 것이라고 가정했습니다. 그러나 훌륭한 소프트웨어가 하드웨어 제한을 보상 할 수 있음을 증명했습니다. NVIDIA H100과 같은 최신 고급 GPU에 의존하는 대신, 칩 투 칩 대역폭이 낮은 Nvidia H800 (NVIDIA H800)을 최적화했습니다.

Deepseek 엔지니어가 집중했습니다 저수준 코드 최적화 메모리 사용을 가능한 한 효율적으로 만듭니다. 그들의 개선은 그것을 보장했다 칩 제한에 의해 성능이 방해되지 않았습니다. 본질적으로, 그들은 더 나은 하드웨어를 기다리는 대신 자신이 가진 것을 극대화했습니다.

주요 테이크 아웃 : 그들은 제한을 우회하지 않았다. 그들은 단순히 기존 자원을 더 똑똑하게 만들었습니다.

요컨대 : 비싼 하드웨어가 필요하지 않습니다.

2. 중요한 부분 만 훈련

AI 모델 교육에는 일반적으로 모든 것을 업데이트하는 것이 포함됩니다. 이것은 거대한 자원 낭비로 이어집니다. Deepseek은 훈련을 통해이 문제를 정면으로 해결했습니다 모델의 필요한 부분 만.

불리는 기술을 사용합니다 보조 손실이없는로드 밸런싱, 그들은 모델의 가장 관련성이 높은 부분 (전문가) 만 활성화되고 업데이트되도록 보장했습니다. 작업량의 균형을 잡기 위해 추가 손실 기능에 따라 바이어스 용어 이를 통해 작업을 모델의 올바른 부분에 동적으로 배포하는 데 도움이됩니다.

어떻게 작동합니까?

각 토큰 (텍스트 조각)은 a로 전송됩니다 소규모 전문가 세트전체 모델을 참여시키는 대신.
시스템은 워크로드를 모니터링하고 조정합니다 바이어스 용어 일부 전문가가 과부하가 걸리지 않도록하는 반면 다른 전문가는 활용률이 낮습니다.
이러한 동적 조정은 허용됩니다 추가 계산 오버 헤드가없는 효율적인 리소스 사용.

결과

오직 모델 매개 변수의 5% 토큰 당 훈련을 받았습니다.
이것은 a로 이어졌습니다 GPU 사용의 95% 감소 메타와 같은 회사에 비해.
더 빠른 훈련 비용이 크게 낮아지고 정확성을 잃지 않고.

요컨대 : 필요한 것만 훈련하고 비용을 크게 절약하십시오.

3. 압축으로 더 빠르고 저렴한 AI

AI 모델, 특히 추론 (출력을 생성 할 때)을 실행하는 것은 메모리 집약적이고 비용이 많이 듭니다. DeepSeek은 혁신적인 기술을 사용하여이를 극복했습니다 저 순위 키 값 (KV) 조인트 압축.

KV 캐시는 키 값 쌍을주의 메커니즘에 결정적으로 저장하지만 최대 용량으로 저장하면 많은 메모리가 필요합니다. Deepseek은 방법을 찾았습니다 이 키 값 쌍이 효율적으로 압축하십시오. 성능을 희생하지 않고 스토리지 감소.

어떻게 작동합니까?

모델은 a를 사용하여 키와 값 벡터를 압축합니다 다운 프로 주사 매트릭스, 필수 정보를 보존하면서 크기를 줄입니다.
추론 중에 압축 버전 메모리 요구 사항이 크게 줄어 듭니다.
필요한 경우 압축 데이터가 최소한의 정확도 손실로 다시 확장됩니다.

이익

낮은 메모리 사용 : DeepSeek는 성능을 잃지 않고 훨씬 적은 양의 데이터를 저장합니다.
더 빠른 추론 : 처리 할 데이터가 적 으면 더 빠른 응답을 의미합니다.
비용 절감 : 모델을 효율적으로 실행하려면 하드웨어가 적습니다.

요컨대 : 더 작은 메모리, 더 빠른 결과, 비용 절감.

4. 강화 학습으로 더 똑똑한 학습

DeepSeek은 또한 모델 학습 효율성을 향상 시켰습니다 강화 학습. 그들은 전통적인 훈련 방법에만 의존하는 대신 명확하고 검증 가능한 답변, 수학 및 코딩 문제와 같은.

어떻게 작동합니까?

AI에는 복잡하고 쉽게 검증 가능한 작업 (예 : 코딩 문제)이 제공됩니다.
모델이 올바른 결과를 생성하면 보상을 받고 해당 패턴을 강화하는 법을 배웁니다.
실수를 저지르면 향후 반복에서 성능을 향상시키기 위해 조정됩니다.

이 방법은 DeepSeek에게 허용되었습니다 더 적은 리소스로 정확도를 향상시킵니다 즉각적이고 측정 가능한 피드백을 제공 한 도전에만 초점을 맞추면됩니다.

요컨대 : 시행 착오를 통한 더 똑똑한 교육.

또한 읽으십시오 : DeepSeek은 어떻게 돈을 버는가?

DeepSeek이 큰 거래 인 이유는 무엇입니까?

Deepseek의 성공은 세 가지 강력하면서도 간단한 아이디어로 이어집니다.

중요한 것만 훈련 : 계산을 줄이기 위해 모델의 가장 중요한 부분에 중점을 둡니다.
스마트 메모리 압축 : 성능을 잃지 않고 저장소를 덜 사용합니다.
효율적인 하드웨어 사용 : 최첨단 칩에 의존하는 대신 사용 가능한 리소스를 최대한 활용합니다.

이러한 전략은 비용을 절감 할뿐만 아니라 경쟁 업체보다 더 빨리 테스트, 실험 및 혁신 능력을 심화 시켰습니다.

그들의 이야기를 그렇게 매력적으로 만드는 것은 그것이 무제한 자원을 갖는 것이 아니라는 것입니다. 쯤이고 있습니다 사용 가능한 것을 최대한 활용합니다. DeepSeek은 획기적인 AI가 엄청난 가격표를 가지고있을 필요가 없음을 증명했습니다. 그들의 접근 방식은 회사가 AI에 관해서는 기업이 더 똑똑하지 않고 더 어렵다고 생각하는 방법에 대한 청사진입니다. 효율성에 중점을 두어 다른 사람들이 AI 모델을 훈련하고 배포하는 방법을 다시 생각할 수있는 문을 열었습니다.

AI가 계속 발전함에 따라 DeepSeek은 효율성이 중요 할뿐만 아니라 실제 게임 체인저라는 것을 보여주었습니다.

DeepSeek 작업 및 유사한 모델과의 비교에 대한 자세한 기사를 확인하십시오.

더 멋진 콘텐츠를 위해 분석 Vidhya 블로그를 계속 지켜봐 주시기 바랍니다!