AMD 본능 가속기에 대한 대규모 VRAM 풀은 익사 Linux의 최대 절전 모드 – 서버 당 1.5TB의 메모리를 생성합니다.
오늘의 리눅스 패치 시리즈AMD 엔지니어 Sameul Zhang은 과도한 VRAM과 시스템 당 많은 AMD 본능 가속기로 인해 Linux 서버가 동면하지 못하는 특이한 문제를 강조했습니다. 맥락에서 본능 가속기 AI, 고성능 컴퓨팅, 과학 워크로드 및 기타 까다로운 작업을 처리하는 데이터 센터를 위해 특별히 설계된 강력한 AMD GPU입니다.
이 GPU를 그렇게 강력하게 만드는 것의 일부는 vram일부는 192GB와 마찬가지로 게이머에게는 큰 소리가 들지만 현대 데이터 센터 칩의 표준이 상당히 표준입니다. 실제로이 AMD AI Linux 기반 서버에는 총 VRAM을 약 1.5TB로 가져 오는 총 8 개의 본능 카드가 장착되어 있습니다. 그러나 더 많은 VRAM은 일반적으로 좋은 것이지만 이와 같은 경우 예기치 않은 문제로 이어질 수 있습니다.
그러나 VRAM 용량은 일부가되지만 최대 절전 모사 실패의 근본 원인은 본능 카드의 수가 아니라 어떻게 리눅스 최대 절전 모드 과정에서 GPU 메모리를 처리합니다. 시스템이 최대 절전 모드를 시작하면 모든 GPU 메모리가 먼저 시스템 RAM, 일반적으로 그래픽 번역 테이블 (GTT) 또는 공유 메모리 (SHMEM)를 통해 오프로드됩니다. 여기에서 커널은 퇴거 된 VRAM을 포함하는 모든 시스템 메모리 컨텐츠를 디스크에 작성하기 전에 두 번째 메모리 영역에 복사하여 최대 절전 모드 이미지를 만듭니다.
혼란스러워? 간단히 말해서, 서버에 1.5TB의 총 VRAM이있는 경우,이 복제는 메모리 사용을 최대 3TB까지 넓힐 수 있으며, 이는 2TB의 시스템 메모리 만 장착 된 서버의 용량을 쉽게 초과 할 수 있습니다. 유출은 궁극적으로 최대 절전 모드 과정이 실패하게됩니다.
다행스럽게도 Zhang 은이 최대 절전 모드 문제를 해결하기 위해 노력해 왔으며 두 가지 주요 변화를 제안합니다. 첫 번째는 최대 절전 모드 중에 필요한 시스템 메모리의 양을 줄이는 것을 목표로하며, 이는 프로세스가 성공할 수있게합니다. 그러나 그렇게하는 것은 “해동”단계 (시스템이 최대 절전 모드에서 재개 될 때)가 많은 양의 메모리로 인해 거의 1 시간이 걸릴 수 있으므로 새로운 문제를 소개합니다. 이 문제를 해결하기 위해 해동 단계에서 이러한 버퍼 객체를 복원하는 것을 건너 뛰기 위해 세 번째 패치가 추가되어 이력서 시간이 크게 줄었습니다.
이제 대부분의 고급 AI 서버는 지속적으로 실행되므로 왜 누군가가 동면 할 것인지 묻는 것이 공정합니다. 한 가지 일반적인 이유는 다운 타임 중 전력 소비를 줄이고 전기 그리드를 안정화시키는 데 도움이됩니다. 대규모 데이터 센터 이후 대량의 힘을 소비하고 이것은 최근 스페인에서 본 것과 같은 정전의 위험을 낮추는 데 도움이 될 수 있습니다.
Post Comment