Nvidia의 Blackwell Ultra는 MLPERF 추론을 지배합니다

Nvidia의 Blackwell Ultra는 MLPERF 추론을 지배합니다

머신 러닝 필드는 빠르게 움직이고 있으며 진행 상황을 측정하는 데 사용되는 척도는 계속 유지하기 위해 경쟁해야합니다. 사례 : MLPERF, MLPERF, 때때로“AI 올림픽”이라고 불리는 2 년마다 기계 학습 경쟁은 현장에서 새로운 방향을 반영하여 세 가지 새로운 벤치 마크 테스트를 도입했습니다.

고급 마이크로 장치 엔지니어이자 MLPERF 추론 Working-Group Cochair의 Miro Hodak은“최근에는 현장에서 일어나는 일을 따르기가 매우 어려웠습니다. “우리는 모델이 점차 커지고 있음을 알 수 있으며, 지난 두 라운드에서 우리가 가진 가장 큰 모델을 소개했습니다.”

이 새로운 벤치 마크를 다루는 칩은 일반적인 용의자 인 Nvidia, Arm 및 Intel에서 나왔습니다. Nvidia는 차트를 1 위, GB300 랙 스케일 디자인으로 포장 된 새로운 Blackwell Ultra GPU를 소개했습니다. AMD는 최신 MI325X GPU를 도입하여 강력한 성능을 발휘했습니다. 인텔은 Xeon 제출물로 CPU에서 여전히 추론을 할 수 있음을 증명했지만 Intel Arc Pro 제출물로 GPU 게임에도 들어갔다.

새로운 벤치 마크

마지막 라운드, MLPERF는 LLAMA 3.1-403B를 기반으로하는 대형 언어 모델 인 가장 큰 벤치 마크를 소개했습니다. 이 라운드에서 MLPERF는 다시 한 번 1 위를 차지하여 DeepSeek-R1 671B 모델을 기반으로 한 벤치 마크를 도입했습니다.

추론 모델로서, DeepSeek-R1은 쿼리에 접근 할 때 여러 단계의 사슬을 생각하는 프롬프트를 겪습니다. 이는 일반 LLM 작동보다 추론 중에 훨씬 더 많은 계산이 발생 함을 의미 하므로이 벤치 마크가 더욱 어려워집니다. 추론 모델은 가장 정확하다고 주장되므로 과학, 수학 및 복잡한 프로그래밍 쿼리를위한 선택 기술이됩니다.

MLPERF는 아직 LLAMA 3.1-8B를 기반으로 가장 작은 LLM 벤치 마크 외에도 가장 작은 것을 도입했습니다. MLPERF 추론 태스크 포스 의자 인 Taran Iyengar는 낮은 대기 시간이지만 높은 비율 추론에 대한 산업 수요가 증가하고 있다고 설명했다. 작은 LLM은이를 제공 할 수 있으며 텍스트 요약 및 에지 응용 프로그램과 같은 작업에 탁월한 선택입니다.

이로 인해 LLM 기반 벤치 마크의 총 카운트를 혼란스러운 4 개로 가져옵니다. 여기에는 새롭고 가장 작은 라마 3.1-8B 벤치 마크가 포함됩니다. 기존 라마 2-70B 벤치 마크; LLAMA 3.1-403B 벤치 마크의 마지막 라운드 소개; 그리고 가장 큰 새로운 Deepseek-R1 모델. 다른 것이 없다면, 이것은 LLM이 아무데도 가지 않는다는 신호입니다.

무수한 LLM 외에도이 MLPerf 추론 라운드에는 Whisper-Large-V3을 기반으로 새로운 음성 텍스트 모델이 포함되었습니다. 이 벤치 마크는 스마트 장치 또는 음성 기반 AI 인터페이스에 관계없이 점점 더 많은 음성 지원 응용 프로그램에 대한 응답입니다.

MLPERF 추론 경쟁에는 두 가지 광범위한 범주가 있습니다.“Close”는 참조 신경 네트워크 모델을 사용하여 수정없이 사용하고 모델에 대한 일부 수정이 허용되는“Open”을 사용해야합니다. 그 안에는 테스트 수행 방식과 어떤 종류의 인프라와 관련된 몇 가지 하위 범주가 있습니다. 우리는 정신을 위해 “폐쇄 된”데이터 중심 서버 결과에 중점을 둘 것입니다.

Nvidia 리드

놀랍게도, 최소한 서버 카테고리에서 각 벤치 마크에서 가속기 당 최고의 성능은 NVIDIA GPU 기반 시스템에 의해 달성되지 않았습니다. Nvidia는 또한 Blackwell Ultra를 공개하여 LLAMA 3.1-405B와 DeepSeek-R1 추론의 두 가지 벤치 마크에서 차트를 토핑했습니다.

산란 시각화

Blackwell Ultra는 Blackwell 아키텍처의 더 강력한 반복으로, 메모리 용량이 훨씬 많고주의 레이어의 가속도를 두 배로 늘리고, 1.5 배 더 많은 AI 컴퓨팅, 표준 Blackwell에 비해 메모리와 연결이 더 빠릅니다. 테스트 한 두 벤치 마크와 같이 더 큰 AI 워크로드를위한 것입니다.

하드웨어 개선 외에도 NVIDIA의 가속 컴퓨팅 제품 담당 이사 인 Dave Salvator는 Blackwell Ultra의 성공을 두 가지 주요 변경 사항으로 평가합니다. 먼저, NVIDIA의 독점적 인 4 비트 플로팅 포인트 번호 형식 NVFP4 사용. Salvator는“우리는 BF16과 같은 형식에 비슷한 정확도를 제공 할 수 있습니다.

두 번째는 소위 분리 된 서빙입니다. 분리 된 서빙의 배후에있는 아이디어는 추론 워크로드에 두 가지 주요 부분이 있다는 것입니다. Prefill, 여기서 쿼리 ( “이 보고서를 요약하십시오”)와 전체 컨텍스트 창 (보고서)이 LLM에로드되고 생성/디코딩이 실제로 계산됩니다. 이 두 단계마다 요구 사항이 다릅니다. 프리 필드는 무거운 계산이지만 생성/디코딩은 메모리 대역폭에 훨씬 더 의존합니다. Salvator는 두 단계의 다른 단계에 다른 GPU 그룹을 할당함으로써 Nvidia는 거의 50 %의 성능 이득을 달성한다고 말합니다.

AMD는 뒤에 가까이 있습니다

AMD의 최신 가속기 칩인 MI355X는 7 월에 출시되었습니다. 이 회사는 모델에 대한 소프트웨어 수정이 허용되는 “오픈”범주에서만 결과를 제공했습니다. Blackwell Ultra와 마찬가지로 MI355X는 4 비트 플로팅 포인트 지원과 확장 된 대역폭 메모리를 특징으로합니다. AMD의 데이터 센터 GPU 제품 마케팅 담당 수석 이사 인 Mahesh Balasubramanian은 MI355X가 Open LLAMA 2.1-70B 벤치 마크에서 2.7의 벤치 마크에서 전임자 MI325X를 이겼다.

AMD의 “폐쇄”제출에는 AMD MI300X 및 MI325X GPU가 구동하는 시스템이 포함되었습니다. 더 고급 MI325X 컴퓨터는 LLAMA 2-70B의 NVIDIA H200S, “전문가 혼합”테스트 및 이미지 생성 벤치 마크와 유사하게 수행되었습니다.

이 라운드에는 AMD MI300X 및 MI325X GPU가 동일한 추론 작업 인 LLAMA 2-70B 벤치 마크에 사용 된 첫 번째 하이브리드 제출도 포함되었습니다. 하이브리드 GPU의 사용은 새로운 GPU가 매년 케이던스로 나오고 있으며, 대량으로 배포 된 구형 모델은 아무데도 가지 않기 때문에 중요합니다. 다양한 종류의 GPU 사이에 워크로드를 전파 할 수 있다는 것은 필수 단계입니다.

인텔은 GPU 게임에 들어갑니다

과거에는 인텔이 기계 학습을하기 위해 GPU가 필요하지 않다는 것을 확고하게 유지했습니다. 실제로 인텔의 Xeon CPU를 사용한 제출물은 여전히 ​​객체 감지 벤치 마크에서 NVIDIA L4와 동등한 것으로 수행되었지만 추천 자 시스템 벤치 마크에서 따라 갔다.

이번 라운드에서 처음으로 인텔 GPU도 공연을했습니다. 인텔 아크 프로 (Intel Arc Pro)는 2022 년에 처음 출시되었습니다. 이 시스템은 Small LLM 벤치 마크에서 Nvidia의 L40과 동등하게 수행되어 LLAMA 2-70B 벤치 마크에서 추적했습니다.

사이트 기사에서

웹 주변의 관련 기사

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다