이 컴파일러 병목 현상으로 인해 훈련 시간이 16시간 단축되었습니다
60시간 훈련이 새로운 표준이 되었습니다. GPU는 포화 상태였고, 데이터 파이프라인은 건강해 보였고, 인프라 모니터링에서는 어떤 문제도 표시되지 않았습니다. 그러나 뭔가 문제가 있었습니다. 모델은 크지 않았고 해당 기간을 정당화할 만큼 데이터가 복잡하지도 않았습니다. 우리가 결국 발견한 것은 Python 코드나 모델 정의에 없었습니다. 컴파일러 스택 깊숙이 묻혀 있었습니다.
보이지 않는 병목 현상 식별




Post Comment