Nvidia의 Blackwell Ultra는 MLPERF 추론을 지배합니다
머신 러닝 필드는 빠르게 움직이고 있으며 진행 상황을 측정하는 데 사용되는 척도는 계속 유지하기 위해 경쟁해야합니다. 사례 : MLPERF, MLPERF, 때때로“AI 올림픽”이라고 불리는 2 년마다 기계 학습 경쟁은 현장에서 새로운 방향을 반영하여 세 가지 새로운 벤치 마크 테스트를 도입했습니다.
고급 마이크로 장치 엔지니어이자 MLPERF 추론 Working-Group Cochair의 Miro Hodak은“최근에는 현장에서 일어나는 일을 따르기가 매우 어려웠습니다. “우리는 모델이 점차 커지고 있음을 알 수 있으며, 지난 두 라운드에서 우리가 가진 가장 큰 모델을 소개했습니다.”
이 새로운 벤치 마크를 다루는 칩은 일반적인 용의자 인 Nvidia, Arm 및 Intel에서 나왔습니다. Nvidia는 차트를 1 위, GB300 랙 스케일 디자인으로 포장 된 새로운 Blackwell Ultra GPU를 소개했습니다. AMD는 최신 MI325X GPU를 도입하여 강력한 성능을 발휘했습니다. 인텔은 Xeon 제출물로 CPU에서 여전히 추론을 할 수 있음을 증명했지만 Intel Arc Pro 제출물로 GPU 게임에도 들어갔다.
새로운 벤치 마크
마지막 라운드, MLPERF는 LLAMA 3.1-403B를 기반으로하는 대형 언어 모델 인 가장 큰 벤치 마크를 소개했습니다. 이 라운드에서 MLPERF는 다시 한 번 1 위를 차지하여 DeepSeek-R1 671B 모델을 기반으로 한 벤치 마크를 도입했습니다.
추론 모델로서, DeepSeek-R1은 쿼리에 접근 할 때 여러 단계의 사슬을 생각하는 프롬프트를 겪습니다. 이는 일반 LLM 작동보다 추론 중에 훨씬 더 많은 계산이 발생 함을 의미 하므로이 벤치 마크가 더욱 어려워집니다. 추론 모델은 가장 정확하다고 주장되므로 과학, 수학 및 복잡한 프로그래밍 쿼리를위한 선택 기술이됩니다.
MLPERF는 아직 LLAMA 3.1-8B를 기반으로 가장 작은 LLM 벤치 마크 외에도 가장 작은 것을 도입했습니다. MLPERF 추론 태스크 포스 의자 인 Taran Iyengar는 낮은 대기 시간이지만 높은 비율 추론에 대한 산업 수요가 증가하고 있다고 설명했다. 작은 LLM은이를 제공 할 수 있으며 텍스트 요약 및 에지 응용 프로그램과 같은 작업에 탁월한 선택입니다.
이로 인해 LLM 기반 벤치 마크의 총 카운트를 혼란스러운 4 개로 가져옵니다. 여기에는 새롭고 가장 작은 라마 3.1-8B 벤치 마크가 포함됩니다. 기존 라마 2-70B 벤치 마크; LLAMA 3.1-403B 벤치 마크의 마지막 라운드 소개; 그리고 가장 큰 새로운 Deepseek-R1 모델. 다른 것이 없다면, 이것은 LLM이 아무데도 가지 않는다는 신호입니다.
무수한 LLM 외에도이 MLPerf 추론 라운드에는 Whisper-Large-V3을 기반으로 새로운 음성 텍스트 모델이 포함되었습니다. 이 벤치 마크는 스마트 장치 또는 음성 기반 AI 인터페이스에 관계없이 점점 더 많은 음성 지원 응용 프로그램에 대한 응답입니다.
MLPERF 추론 경쟁에는 두 가지 광범위한 범주가 있습니다.“Close”는 참조 신경 네트워크 모델을 사용하여 수정없이 사용하고 모델에 대한 일부 수정이 허용되는“Open”을 사용해야합니다. 그 안에는 테스트 수행 방식과 어떤 종류의 인프라와 관련된 몇 가지 하위 범주가 있습니다. 우리는 정신을 위해 “폐쇄 된”데이터 중심 서버 결과에 중점을 둘 것입니다.
Nvidia 리드
놀랍게도, 최소한 서버 카테고리에서 각 벤치 마크에서 가속기 당 최고의 성능은 NVIDIA GPU 기반 시스템에 의해 달성되지 않았습니다. Nvidia는 또한 Blackwell Ultra를 공개하여 LLAMA 3.1-405B와 DeepSeek-R1 추론의 두 가지 벤치 마크에서 차트를 토핑했습니다.
Blackwell Ultra는 Blackwell 아키텍처의 더 강력한 반복으로, 메모리 용량이 훨씬 많고주의 레이어의 가속도를 두 배로 늘리고, 1.5 배 더 많은 AI 컴퓨팅, 표준 Blackwell에 비해 메모리와 연결이 더 빠릅니다. 테스트 한 두 벤치 마크와 같이 더 큰 AI 워크로드를위한 것입니다.
하드웨어 개선 외에도 NVIDIA의 가속 컴퓨팅 제품 담당 이사 인 Dave Salvator는 Blackwell Ultra의 성공을 두 가지 주요 변경 사항으로 평가합니다. 먼저, NVIDIA의 독점적 인 4 비트 플로팅 포인트 번호 형식 NVFP4 사용. Salvator는“우리는 BF16과 같은 형식에 비슷한 정확도를 제공 할 수 있습니다.
두 번째는 소위 분리 된 서빙입니다. 분리 된 서빙의 배후에있는 아이디어는 추론 워크로드에 두 가지 주요 부분이 있다는 것입니다. Prefill, 여기서 쿼리 ( “이 보고서를 요약하십시오”)와 전체 컨텍스트 창 (보고서)이 LLM에로드되고 생성/디코딩이 실제로 계산됩니다. 이 두 단계마다 요구 사항이 다릅니다. 프리 필드는 무거운 계산이지만 생성/디코딩은 메모리 대역폭에 훨씬 더 의존합니다. Salvator는 두 단계의 다른 단계에 다른 GPU 그룹을 할당함으로써 Nvidia는 거의 50 %의 성능 이득을 달성한다고 말합니다.
AMD는 뒤에 가까이 있습니다
AMD의 최신 가속기 칩인 MI355X는 7 월에 출시되었습니다. 이 회사는 모델에 대한 소프트웨어 수정이 허용되는 “오픈”범주에서만 결과를 제공했습니다. Blackwell Ultra와 마찬가지로 MI355X는 4 비트 플로팅 포인트 지원과 확장 된 대역폭 메모리를 특징으로합니다. AMD의 데이터 센터 GPU 제품 마케팅 담당 수석 이사 인 Mahesh Balasubramanian은 MI355X가 Open LLAMA 2.1-70B 벤치 마크에서 2.7의 벤치 마크에서 전임자 MI325X를 이겼다.
AMD의 “폐쇄”제출에는 AMD MI300X 및 MI325X GPU가 구동하는 시스템이 포함되었습니다. 더 고급 MI325X 컴퓨터는 LLAMA 2-70B의 NVIDIA H200S, “전문가 혼합”테스트 및 이미지 생성 벤치 마크와 유사하게 수행되었습니다.
이 라운드에는 AMD MI300X 및 MI325X GPU가 동일한 추론 작업 인 LLAMA 2-70B 벤치 마크에 사용 된 첫 번째 하이브리드 제출도 포함되었습니다. 하이브리드 GPU의 사용은 새로운 GPU가 매년 케이던스로 나오고 있으며, 대량으로 배포 된 구형 모델은 아무데도 가지 않기 때문에 중요합니다. 다양한 종류의 GPU 사이에 워크로드를 전파 할 수 있다는 것은 필수 단계입니다.
인텔은 GPU 게임에 들어갑니다
과거에는 인텔이 기계 학습을하기 위해 GPU가 필요하지 않다는 것을 확고하게 유지했습니다. 실제로 인텔의 Xeon CPU를 사용한 제출물은 여전히 객체 감지 벤치 마크에서 NVIDIA L4와 동등한 것으로 수행되었지만 추천 자 시스템 벤치 마크에서 따라 갔다.
이번 라운드에서 처음으로 인텔 GPU도 공연을했습니다. 인텔 아크 프로 (Intel Arc Pro)는 2022 년에 처음 출시되었습니다. 이 시스템은 Small LLM 벤치 마크에서 Nvidia의 L40과 동등하게 수행되어 LLAMA 2-70B 벤치 마크에서 추적했습니다.
사이트 기사에서
웹 주변의 관련 기사
Post Comment