AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 3월 5, 2025 0 Comments

DeepSeek #opensourceweek 6 일 : 추론 시스템 개요

#opensourceweek의 6 일째에 도달함에 따라 DeepSeek은 DeepSeek-V3/R1 추론 시스템에 대한 심층적 인 개요를 제시했습니다. 이 기사는 시스템의 설계 원칙, 최적화 전략 및 성능 통계를 파고 처리량 및 대기 시간 최적화에서 이루어진 중요한 발전을 강조합니다.

시스템 설계 원칙

DeepSeek-V3/ DeepSeek R1 추론 시스템의 주요 목표는 달성하는 것입니다. 더 높은 처리량 그리고 낮은 대기 시간. 이러한 목표를 달성하기 위해 그들은 크로스 노드 전문가 병렬 처리 (EP)를 활용하는 정교한 아키텍처를 구현했습니다. 이 접근법은 GPU 매트릭스 계산의 효율성을 향상시킬뿐만 아니라 전체 시스템 성능을 최적화합니다.

전문가 병렬 처리 (EP)

배치 크기 스케일링: EP는 배치 크기의 상당한 스케일링을 허용하며, 이는 GPU 활용 및 처리량을 최대화하는 데 중요합니다.
메모리 액세스 감소: 여러 GPU에 전문가를 배포함으로써 각 GPU는 전문가의 작은 부분 집합 만 프로세스하여 메모리 액세스 요구를 줄이고 결과적으로 대기 시간을 낮 춥니 다.

그러나 EP의 구현은 특히 교차 노드 통신 및 다양한 데이터 병렬 처리 (DP) 인스턴스에 걸쳐 효과적인로드 밸런싱의 필요성, 특히 복잡성을 도입합니다.

EP의 문제 해결

이러한 과제를 해결하기 위해 세 가지 주요 전략에 중점을 두었습니다.

스케일링 배치 크기: 충분히 큰 전체 배치 크기를 보장함으로써 모델의 고유 한 희소성에도 불구하고 높은 처리량과 낮은 대기 시간을 유지할 수 있습니다.
통신 대기 시간을 숨기고 있습니다: 프리 필 및 디코딩 단계에서 듀얼 배치 오버랩 전략을 사용하여 미생물을 교대로 실행하고 계산 뒤에 통신 비용을 숨길 수 있습니다.
로드 밸런싱: 단일 GPU가 병목 현상이되지 않도록 모든 GPU의 계산 및 통신 부하의 균형을 맞추기 위해 노력합니다.

선사 및 디코딩 단계

DeepSeek-V3/R1의 아키텍처는 프리 필 및 디코딩 단계에서 다른 정도의 병렬 처리를 사용합니다.

선사 단계: 라우팅 된 전문가 EP32 및 MLA/Shared Expert DP32를 활용하며 각 배포 장치는 4 개의 노드와 32 개의 중복 라우팅 전문가에 걸쳐 있습니다.
디코딩 단계: 라우팅 된 전문가 EP144 및 MLA/Shared Expert DP144를 고용하고 있으며 각 배포 장치는 18 개의 노드에 걸쳐 있습니다.

커뮤니케이션 계산 중첩

처리량을 최적화하기 위해 커뮤니케이션 계산 중첩 메커니즘을 개발했습니다. 프리 플릴 단계에서는 두 미생물 사이를 번갈아 가며, 한 마이크로 궤양의 통신 비용이 다른 미생물 계산 뒤에 숨겨 질 수 있습니다. 디코딩 단계에서는주의 층을 두 단계로 세분화하고 5 단계 파이프 라인을 사용하여 원활한 겹치는 것을 달성합니다.

🚀 6 일 #opensourceweek: 한 가지 더-DeepSeek-V3/R1 추론 시스템 개요

다음을 통해 최적화 된 처리량 및 대기 시간
Cross-Node EP 기반 배치 스케일링
communcation 계산 커뮤니케이션 중첩
⚖️로드 밸런싱

DeepSeek의 온라인 서비스 통계 :
⚡ 73k/14.8k …

-Deepseek (@deepsek_ai) 2025 년 3 월 1 일

DeepSeek의 온라인 추론 시스템 다이어그램

이 다이어그램은 병렬 처리를 위해로드 밸런서에서 관리하는 두 가지 주요 구성 요소의 프리 필드 및 디코딩 서비스가있는 시스템을 보여줍니다. API 서버는 이러한 서비스에 요청을 지시합니다. 두 서비스 모두 스토리지에 선택적인 외부 키 값 캐시 (KVCACHE)를 사용합니다. 이 시스템은 병렬 처리 및 캐싱을 통해 API 요청의 효율적이고 확장 가능한 처리를 위해 설계되었습니다.

성능 통계

DeepSeek-V3/R1 추론 시스템의 성능은 인상적이었습니다. 위에 24 시간시스템은 다음과 같은 통계를 달성했습니다.

총 입력 토큰: 6 억 6 천억, 342 억 (56.3%)이 온 디스크 KV 캐시에 부딪쳤다.
총 출력 토큰: 168 억, 초당 평균 출력 속도는 20-22 개의 토큰입니다.
평균 처리량: 각 H800 노드는 입력을 위해 약 73.7k 토큰/S와 출력을 위해 14.8k 토큰/s를 전달했습니다.

비용 및 수익 분석

DeepSeek-V3/R1 시스템에서 생성 한 운영 비용 및 수익은 주목할 만하다. H800 GPU 당 시간당 $ 2의 임대 비용이 $ 87,072.

모든 토큰이 DeepSeek-R1의 가격으로 청구 된 경우 이론적 인 총 매출은 다음과 같습니다. $ 562,027놀라운 비용 이익 마진을 초래합니다 545%. 가격 구조는 다음과 같습니다.

R1 가격:
- 입력 토큰의 경우 $ 0.14/m (캐시 히트)
- 입력 토큰의 경우 $ 0.55/m (캐시 미스)
- 출력 토큰의 경우 $ 2.19/m

그러나 몇 가지 요인으로 인해 실제 수익이 낮습니다.

DeepSeek-V3의 가격은 R1보다 상당히 낮습니다.
웹 및 앱 액세스는 무료로 제공되면서 서비스의 하위 집합 만 수익을 창출합니다.
야간 할인은 피크 외 시간 동안 적용됩니다.

그래프 개요

그래프에는 두 개의 데이터 세트가 표시됩니다. 12:00에서 12:00까지 24 시간 동안 비용 (노란색) 및 이론 소득 (파란색).
데이터 트렌드 : 이론적 소득은 특정 시간 동안 상당한 피크를 나타내며, 잠재적 수입이 높아지고 비용은 상대적으로 안정적이고 비교하면 낮습니다.
시간 분석 : 비용은 일관되게 낮아서 효율적인 운영을 시사하는 반면 이론적 소득은 다양한 수준의 참여 또는 활동을 암시합니다.

참고 : 이론 소득은 API 가격 계산을 기반으로하며 실제 수입을 반영하지 않습니다.

자세한 분석은 6 일 Github의 Github 링크를 참조하십시오.

이전 업데이트 :

결론

DeepSeek-V3/R1 추론 시스템은 특히 처리량 및 대기 시간을 최적화하는 인공 지능 분야에서 상당한 발전을 나타냅니다. 크로스 노드 전문가 병렬 처리, 효과적인 부하 밸런싱 및 커뮤니케이션 계산 중복의 혁신적인 사용을 통해 인상적인 성능 지표를 달성했습니다.

그들은 우리의 시스템을 계속 개선하고 커뮤니티와 통찰력을 공유함에 따라 인공 일반 정보 (AGI)의 광범위한 목표에 기여하고 있습니다. 이번 주에 얻은 통찰력은 우리의 이해를 향상시킬뿐만 아니라 AI 기술의 미래 혁신을위한 길을 열어 줄 것입니다.

그들은 Deepseek 프로젝트의 진행중인 개발에 대한 귀중한 통찰력과 AI의 미래에 대한 영향을 제공하기 때문에 지역 사회가 이러한 자원에 참여하도록 격려하고 있습니다.

Harsh Mishra는 AI/ML 엔지니어로 실제 인간보다 큰 언어 모델과 대화하는 데 더 많은 시간을 소비합니다. Genai, NLP에 대한 열정 및 기계를 더 똑똑하게 만드는 데 열정적입니다 (따라서 아직 그를 대체하지 않습니다). 모델을 최적화하지 않을 때는 아마도 커피 섭취를 최적화하고있을 것입니다. 🚀☕

출처 참조