DeepSeek은 FlashMla를 출시합니다

Deepseek의 큰 소식! 이 회사는 공식적으로 최초의 오픈 소스 저장소를 출시하여 CUDA 커널을 활용하여 LLM의 속도와 효율성을 향상 시켰습니다. 이 업데이트의 핵심은 다음과 같습니다 FlashMla고급 다중주의 (MLA) 디코딩 커널, 특히 호퍼 GPU에 최적화 된 커널 디코딩 커널. 이 기술은 가변 길이 시퀀스를보다 효율적으로 처리하므로 AI 모델을 더 부드럽고 빠르게 호스팅합니다.

🚀 1 일 #opensourceweek: FlashMla

Hopper GPU의 효율적인 MLA 디코딩 커널을 공유하는 것이 영광이며, 가변 길이 시퀀스 및 현재 생산에 최적화되었습니다.

bf16 지원
PAGED KV 캐시 (블록 크기 64)
3000 GB/S 메모리 바운드 및 580 TFLOPS…

-Deepseek (@deepsek_ai) 2025 년 2 월 24 일

릴리스의 주요 하이라이트 :

BF16 지원
PAGED KV 캐시 블록 크기 64

이러한 최적화는 CUDA 12.6을 사용하여 H800 SXM5 GPU에서 실행할 때 계산 결합 시나리오에서 최대 3000GB/s를 계산 결합 시나리오에서 제공합니다.

이 수준의 성능으로 AI 추론은 주요 업그레이드를 받았습니다! 흥미로운 것 같네요?

참고 : 이전에는 MLA가 DeepSeek 모델에서 사용되었으며 이제 Cuda 커널을 사용하여 FlashMla는 DeepSeek AI의 R1 + V3을 더 빨리 호스팅합니다!

FlashMla는 무엇입니까?

FlashMla는 NVIDIA의 차세대 아키텍처 인 호퍼 GPU를 위해 특별히 설계된 최적화 된 MLA 디코딩 커널입니다. 성능을 염두에두고 구축 된이 제품은 AI 모델을 규모로 가속화하려는 DeepSeek의 약속을 구현합니다. FlashMla는 모든 밀리 초가 계산되는 경우보다 빠르고 효율적인 처리를 보장합니다.

하드웨어 요구 사항

FlashMLA는 고성능 GPU, 특히 H800 SXM5와 같은 호퍼 아키텍처 GPU로 실행되도록 설계되었습니다. 최적의 성능을 위해 CUDA 12.3+ 및 Pytorch 2.0+가 필요합니다.

정밀도와 최적화

현재 지원합니다 BF16 정밀도수치 안정성을 유지하면서 효율적인 계산을 보장합니다.
구현 a PAGED KV 캐시 a 블록 크기 64대규모 모델에서 메모리 효율성을 높이고 대기 시간을 줄입니다.

성능 벤치 마크

공무원의 결과를 기반으로합니다 Github 저장소FlashMla는 인상적인 성능을 제공합니다.

메모리 효율성: H800 SXM5의 경우 최대 3000GB/s의 메모리 대역폭을 달성하여 H800 SXM5에 대해 3350GB/s의 이론적 피크에 접근합니다.
전원 계산:까지 도달합니다 580 Tflops BF16 매트릭스 곱셈의 경우 – H800의 이론적 피크를 능가적으로 능가합니다. 260 tflops계산 자원의 최적화 된 활용을 보여줍니다.

높은 메모리 대역폭, 효율적인 캐싱 및 탁월한 계산 처리량의 조합은 FlashMla가 극심한 성능을 필요로하는 AI 워크로드를위한 강력한 선택으로 만듭니다.

이것이 당신에게 모두 횡설수설이라면, 나는 이것을 깊이 설명 할 것입니다. 멀티 헤드 잠재 관심 (MLA)부터 시작하겠습니다.

멀티 헤드 잠재 관심 (MLA)에 대한 브리핑

다중 헤드 잠재주의 (MLA)는 Deepseek-V2의 다중 헤드주의 (MHA)의 방출로 도입되었다. 그것은 대형 모델 스케일링의 주요 과제를 해결하도록 설계된 기술 제품군에 속합니다 : KV 캐시 크기를 줄이면 주요 메모리 병목 현상이 될 수 있습니다. 이 범주의 다른 방법으로는 그룹 쿼리 관심과 다중 정체 관심이 있습니다. 이러한 접근 방식은 메모리 사용량을 낮추는 데 도움이되지만 종종 트레이드 오프가 제공됩니다.

MLA는 다소 쿼리주의와 같이 작동하는 저 순위의 요인화 된 프로젝션 매트릭스를 사용하여 다른 접근 방식을 취합니다. 그러나 단순히 단일 헤드를 여러 번 반복하는 대신 각 Q 헤드에 대해 독특하고 적절한 K 및 V 헤드를 생성하기 위해 잠재 벡터를 압축합니다. DeepSeek에 따르면,이 방법은 메모리 오버 헤드를 줄일뿐만 아니라 모델의 성능을 실제로 손상시키지 않고 향상시킵니다.

표준 멀티 헤드주의 및 그 한계

MHA (Multi-Head Attention)는 여러주의 헤드에서 독립적으로 쿼리, 키 및 값을 처리하여 데이터의 다양한 관계를 캡처하는 모델의 능력을 향상시킵니다. 그러나이 유연성은 특히 추론 중에 비용이 발생합니다. 이전 토큰의 키와 값을 저장하는 KV 캐시는 시퀀스 길이로 선형으로 확장됩니다. 이것은 빠르게 병목 현상이되어 긴 시퀀스에 대해 상당한 GPU 메모리를 소비합니다.

모델의 경우 N_H 주의 머리와 머리 치수 D_HKV 캐시 크기는 다음과 같이 계산됩니다.

큰 시퀀스 길이의 경우 메모리 제한을 초과하여 모델 확장 성과 효율성을 제한 할 수 있습니다.

MLA가 메모리 사용량을 어떻게 최적화합니까?

메모리 잠재주의 (MLA) KV 정보를 저장하는보다 컴팩트 한 방법을 도입 하여이 문제를 해결합니다. 직접 캐싱 키와 값 대신 MLA는 잠재 벡터로 압축합니다. C_T 각 토큰에 대해 티스토리지 요구 사항을 크게 줄입니다. 프로세스는 다음과 같이 작동합니다.

숨겨진 상태 H_T 잠재 벡터로 투사됩니다 C_T 학습 된 변환 매트릭스 사용 w^{kv}어디 C_T 차원이 훨씬 작습니다 D_C (비교 N_H * D_H).

키 (K_T) 및 값 (V_T)을 사용하여 재구성됩니다.

여기, w^{uk} 그리고 w^{uv} 변환 행렬 매핑입니다 D_C 돌아온다 N_H * D_H.

저장하는 대신 K_T 그리고 V_T 직접 MLA 만 캐시합니다 C_TKV 캐시 크기를 줄입니다 seq_len × d_c.

이 접근법은 메모리 사용량을 크게 줄입니다 93.3% 감소더 긴 컨텍스트 처리 및보다 효율적인 처리를 허용합니다.

메모리 최적화 – GPU 메모리 제한을 초과하지 않고 확장 시퀀스의 처리를 가능하게합니다.
성능 유지 -DeepSeek-V2에서 관찰 된 바와 같이 모델 성능을 유지하거나 향상시킵니다.
비용 효율성 -교육 및 추론의 계산 비용을 줄여 대규모 모델을보다 실용적으로 만듭니다.

MLA를 활용하여 모델은 하드웨어 요구 사항을 관리하면서 더 긴 컨텍스트 이해를 달성하여 효율적인 대규모 AI 응용 프로그램을위한 새로운 가능성을 잠금 해제 할 수 있습니다.

이것을 자세히 이해하려면 다음을 읽으십시오.

키 값 캐싱 : 자동 회귀 디코딩 향상

Key-Value (KV) 캐싱은 각 단계에서 재 계산하는 대신 이전에 계산 된 키 값 쌍을 저장하고 재사용하여 자동 회귀 디코딩 프로세스를 가속화하는 강력한 최적화 기술입니다.

훈련은 여전히 전체 입력 순서를 동시에 처리해야하기 때문에 주로 추론 중에 사용됩니다. KV 캐싱을 활용하여 중복 계산을 피하고 효율성을 크게 향상시킵니다.

KV 캐싱은 어떻게 작동합니까?

KV 캐싱은 일반적으로 롤링 버퍼로 작동합니다. 각 디코딩 단계에서 :

새 쿼리 (Q) 만 계산됩니다.
이전에 캐시 된 키 값 쌍 (k, v)이 재사용됩니다.
그런 다음주의 메커니즘은 저장된 K 및 V와 함께 새로운 Q를 처리합니다.
최신 토큰 K와 V는 향후 단계를 위해 캐시에 추가됩니다.

이 접근법은 계산 오버 헤드를 줄여서 자동 회귀 모델을보다 효율적으로 만듭니다. 그러나 트레이드 오프와 함께 제공됩니다. 메모리 사용량 증가. KV 캐시는 배치 크기, 시퀀스 길이, 숨겨진 크기 및주의 헤드 수와 같은 요소로 비례 적으로 비례 적으로 스케일링되므로 특히 큰 배치 또는 긴 시퀀스의 경우 메모리 병목 현상이 빠르게 될 수 있습니다.

메모리 도전을 극복합니다

이러한 메모리 제약을 해결하기 위해 두 가지 주요 전략이 나타났습니다.

다중 정체주의 (MQA) : 여러 쿼리에서 k와 v를 공유하여 메모리 소비를 줄입니다.
그룹화 된 관심 (GQA) : 쿼리를 더 작은 그룹으로 클러스터링하여 표준 멀티 헤드주의와 MQA 간의 균형을 맞추고 효율성을 유지하면서 메모리 부하를 줄입니다.

이러한 기술을 통합함으로써 KV 캐싱은 더 빠르고 확장 가능한 추론을 가능하게하여 현대 변압기 기반 아키텍처에서 필수 구성 요소가됩니다.

FlashMla : DeepSeek의 최첨단 모델에 전원을 공급합니다

DeepSeek의 모델은 플래시를 활용합니다MLA 다음 모델에서 놀라운 효율과 확장 성을 달성합니다.

플래시를 통합하여MLADeepSeek은 AI 효율성과 경제적 타당성의 경계를 추진하고 있습니다.

이제 Nvidia 호퍼에 대해 이야기합시다.

Nvidia Hopper는 무엇입니까?

NVIDIA HOPPER는 인공 지능 (AI) 및 고성능 컴퓨팅 (HPC) 워크로드를 과급하도록 설계된 혁신적인 GPU 아키텍처입니다. 선구적인 컴퓨터 과학자의 이름을 따서 명명되었습니다 그레이스 호퍼이 최첨단 기술은 탁월한 메모리 효율로 대규모 병렬 처리를 처리하도록 구축되었습니다. 연구원, 개발자 및 기업은 AI, 기계 학습 및 딥 러닝 애플리케이션에서 획기적인 속도를 달성 할 수 있도록합니다.

Nvidia Hopper 아키텍처 내부

Nvidia Hopper Architecture는 TSMC의 고급 4N 프로세스를 기반으로하는 800 억 개가 넘는 트랜지스터로 가득합니다. NVLINK 스위치, 기밀 컴퓨팅, 변압기 엔진 및 2 세대 MIG (다중 인스턴스 GPU)와 같은 주요 혁신이 통합되어 있습니다. 이 기술은 NVIDIA의 H100 및 H200 GPU의 힘을 불러 일으켜 교육 및 추론에서 생성 AI 및 딥 러닝에 이르기까지 AI 워크로드를위한 궁극적 인 선택입니다.

대규모 데이터 세트를 다루거나 정교한 AI 모델을 훈련하거나 복잡한 시뮬레이션을 실행하든 NVIDIA HOPPER는 AI 및 컴퓨팅의 경계를 밀기 위해 필요한 속도, 확장 성 및 효율성을 제공합니다.

성능

DeepSeek AI의 구현에서 최적화 된 CUDA 커널은 BF16 (BFLOAT16) 매트릭스 곱셈에 대한 580 TFLOP (초당 1 조 플로팅 포인트 작업)의 실제 성능을 달성하고 있습니다.

이것이 무엇을 의미합니까?

이론적 피크 대 실제 성능
- 이론적 피크 TFLOPS는 이상적인 조건에서 GPU가 달성 할 수있는 거친 상한입니다.
- 실제 시나리오에서는 메모리 병목 현상 및 차선책 실행과 같은 비 효율성으로 인해 실제 성능이 낮습니다.
최적화로 한계를 깨뜨립니다
- DeepSeek의 Cuda 커널 (FlashMla와 같은)은 GPU에서 계산이 예약되고 실행되는 방식을 최적화합니다.
- 예상 성능을 초과하기 위해 GPU 코어, 메모리 대역폭 및 명령 실행을 더 잘 활용합니다.
이것이 어떻게 가능합니까?
- 최적화에는 텐서 코어 퓨전과 같은 기술, 효율적인 메모리 액세스 패턴 및 계산 간접비 감소와 같은 기술이 포함될 수 있습니다.
- DeepSeek은 원시 TFLOP에 단순히 의존하는 대신 실제 하드웨어 활용을 극대화합니다.

DeepSeek의 최적화가 예상 성능을 두 배로 늘리는 것 이상이라는 사실은 GPU의 계산 능력을 매우 효율적으로 사용하여 AI 워크로드가 기존의 구현보다 훨씬 빠르게 진행됩니다.

결론

DeepSeek의 FlashMLA 릴리스는 특히 Hopper GPU의 AI 추론 효율에서 상당한 획기적인 획기적인 획기적인 것으로 나타났습니다. MLA (Multi-Latent Intereation)를 도입함으로써 DeepSeek는 메모리 사용량을 최적화하면서 모델 성능을 유지하거나 향상시킵니다. PAGED KV CACHE 및 BF16 지원은 고속 처리를 허용하며 메모리 대역폭은 3000GB/s에 이르렀고 H800 SXM5 GPU에서 최대 580 TFLOPS에 이르렀습니다.

MLA는 대규모 AI 모델을보다 효율적이고 비용 효율적으로 만드는 KV 캐시 크기 (최대 93.3%)를 크게 줄입니다. 이 혁신은 DeepSeek-V2 및 V3의 핵심이며, 더 긴 컨텍스트 처리, 더 빠른 추론 및 더 낮은 교육 비용을 가능하게합니다. FlashMla를 사용하면 DeepSeek은 AI 확장 성의 한계를 뛰어 넘어 모델 효율성과 경제적 생존력에 새로운 표준을 설정하면서 대규모 AI에보다 접근 가능하고 실용적으로 만듭니다.

DeepSeek ‘s Day 2 릴리스에 대한 자세한 분석을 위해 Analytics Vidhya 블로그를 계속 지켜봐주십시오!