AI 모델에서 메모리 오버 헤드 감소
저자 :
(1) Ben Athiwaratkun, AWS AI Labs;
(2) Sujan Kumar Gonugondla, AWS AI Labs;
(3) Sanjay Krishna Gouda, AWS AI Labs;
(4) Haifeng Qian, AWS AI Labs;
(5) Sanjay Krishna Gouda, AWS AI Labs;
(6) Hantian Ding, AWS AI Labs;
(7) Qing Sun, AWS AI Labs;
(8) Jun Wang, AWS AI Labs;
(9) Jiacheng Guo, AWS AI Labs;
(10 Liangfu Chen, AWS AI Labs;
(11) Parminder Bhatia, GE Healthcare (AWS에서 수행);
(12) Ramesh Nallapati, Amazon Agi (AWS에서 수행);
(13) Sudipta Sengupta, AWS AI Labs;
(14) Bing Xiang, Goldman Sachs (AWS에서 수행).
링크 표
초록 및 1 소개
2. 관련 작업
3. 배경
3.1. 표기법 및 3.2. 언어 모델 추론
3.3. 멀티 쿼리, 멀티 헤드 및 일반화 된 멀티 쿼리주의
4. 맥락 인식이 분기 된 관심과 4.1. 동기 부여
4.2. 제형 및 4.3. 메모리 IO 복잡성
5. 실험
5.1. 멀티 헤드, 멀티 쿼리 및 다중 그룹주의의 기능을 비교합니다
5.2. 기능-동등한 모델의 대기 시간
5.3. 응용 프로그램
6. 결론과 참고 문헌
A. FAQ
B. 관련 작업
C. 설정
D. 다중 그룹주의 가족
E. 맥락 인식은 관심을 끌었다
F. 응용 프로그램 : 추가 결과
G. 투기 디코딩 및 빠른 디코딩 기술과의 호환성
E. 맥락 인식은 관심을 끌었다
E.1. 증거
여기서, 우리는 단일 컨텍스트 배치 샘플링의 경우 1과 2의 작업과 동일한주의를 회복한다는 증거를 개요합니다. 우리는 컨텍스트 길이에 해당하는 KV 부분, 모든 배치 지수는 텐서에 해당한다는 사실을 사용합니다.
E.2. 자세한 메모리 I/O 분석
전반적으로, 메모리 I/O 복잡성이 변경됩니다
• 원래 메모리 I/O 비용 : BHNK + BGMK + BHNM (⟨Q, KAT의 경우) + BHNM + BGMK + BND (⟨W, V⟩)
• 분기 된주의 메모리 I/O 비용 : BHNK + GMCK + BGMDK + BHNM (⟨Q, KAT) + BHNM + GMCK + BGMDK + BND (⟨W, V⟩)
관련 메모리 IO가 있습니다. 그러나 m >> n = 1 이후 KV 캐시 구성 요소 BGMK의 IO에 비해 일반적으로 매우 작습니다 (BND).
E.3. 분기 된 관심의 구현
분기 된주의의 추론 효율의 극적인 이익에도 불구하고, 우리는 Pytorch를 사용한 20 줄의 코드를 포함하는 구현의 단순성을 보여줍니다 (Paszke et al., 2019).
Post Comment