AI 모델에서 메모리 오버 헤드 감소

저자 :

(1) Ben Athiwaratkun, AWS AI Labs;

(2) Sujan Kumar Gonugondla, AWS AI Labs;

(3) Sanjay Krishna Gouda, AWS AI Labs;

(4) Haifeng Qian, AWS AI Labs;

(5) Sanjay Krishna Gouda, AWS AI Labs;

(6) Hantian Ding, AWS AI Labs;

(7) Qing Sun, AWS AI Labs;

(8) Jun Wang, AWS AI Labs;

(9) Jiacheng Guo, AWS AI Labs;

(10 Liangfu Chen, AWS AI Labs;

(11) Parminder Bhatia, GE Healthcare (AWS에서 수행);

(12) Ramesh Nallapati, Amazon Agi (AWS에서 수행);

(13) Sudipta Sengupta, AWS AI Labs;

(14) Bing Xiang, Goldman Sachs (AWS에서 수행).

링크 표

초록 및 1 소개

2. 관련 작업

3. 배경

3.1. 표기법 및 3.2. 언어 모델 추론

3.3. 멀티 쿼리, 멀티 헤드 및 일반화 된 멀티 쿼리주의

4. 맥락 인식이 분기 된 관심과 4.1. 동기 부여

4.2. 제형 및 4.3. 메모리 IO 복잡성

5. 실험

5.1. 멀티 헤드, 멀티 쿼리 및 다중 그룹주의의 기능을 비교합니다

5.2. 기능-동등한 모델의 대기 시간

5.3. 응용 프로그램

6. 결론과 참고 문헌

A. FAQ

B. 관련 작업

C. 설정

D. 다중 그룹주의 가족

E. 맥락 인식은 관심을 끌었다

F. 응용 프로그램 : 추가 결과

G. 투기 디코딩 및 빠른 디코딩 기술과의 호환성

E. 맥락 인식은 관심을 끌었다

E.1. 증거

여기서, 우리는 단일 컨텍스트 배치 샘플링의 경우 1과 2의 작업과 동일한주의를 회복한다는 증거를 개요합니다. 우리는 컨텍스트 길이에 해당하는 KV 부분, 모든 배치 지수는 텐서에 해당한다는 사실을 사용합니다.

E.2. 자세한 메모리 I/O 분석

전반적으로, 메모리 I/O 복잡성이 변경됩니다

• 원래 메모리 I/O 비용 : BHNK + BGMK + BHNM (⟨Q, KAT의 경우) + BHNM + BGMK + BND (⟨W, V⟩)

그림 9 : 2D- 인터베드 크기의 피드 포워드 모델을 포함한 기능 대 크기 플롯. 플롯은 피드 포워드 매개 변수의 수와주의 매개 변수 단독 사이의 균형이 멀티 헤드, 다중 그룹 및 다중 쿼리 관심의 상대적 표현성을 설명하지 않음을 보여줍니다. 오히려, 우리는 상대적 표현력을 설명하는 것은 열쇠와 가치 텐서와 관련된 표현력이라고 주장합니다 (5.1 절). 그림 9 : 2D- 인터베드 크기의 피드 포워드 모델을 포함한 기능 대 크기 플롯. 플롯은 피드 포워드 매개 변수의 수와주의 매개 변수 단독 사이의 균형이 멀티 헤드, 다중 그룹 및 다중 쿼리 관심의 상대적 표현성을 설명하지 않음을 보여줍니다. 오히려, 우리는 상대적 표현력을 설명하는 것은 열쇠와 가치 텐서와 관련된 표현력이라고 주장합니다 (5.1 절).