언어 모델 최적화 : 그리핀의 로컬 관심 및 메모리 효율성 디코딩

저자 :

(1) Soham DE, Google Deepmind 및 동등한 기여;

(2) Samuel L. Smith, Google Deepmind 및 동등한 기여;

(3) Anushan Fernando, Google Deepmind 및 동등한 기여;

(4) Aleksandar Botev, Google Deepmind 및 동등한 기여;

(5) George Cristian-Muraru, Google Deepmind 및 동등한 기여;

(6) Albert Gu, Google Deepmind에서 수행 한 작업;

(7) Ruba Haroun, Google Deepmind;

(8) Leonard Berrada, Google Deepmind;

(9) Yutian Chen, Google Deepmind;

(10) Srivatsan Srinivasan, Google Deepmind;

(11) Guillaume Desjardins, Google Deepmind;

(12) Arnaud Doucet, Google Deepmind;

(13) David Budden, Google Deepmind;

(14) Yee Whye Teh, Google Deepmind;

(15) David Budden, Google Deepmind;

(16) Razvan Pascanu, Google Deepmind;

(17) Nando de Freitas, Google Deepmind;

(18) Caglar Gulcehre, Google Deepmind.

링크 표

1 소개

2 모델 아키텍처

3 반복 모델은 변압기만큼 효율적으로 스케일입니다

3.1. 스케일링 곡선

3.2. 다운 스트림 작업에 대한 평가

4 기기에서 효율적으로 반복 모델을 훈련하고 4.1. 대규모 교육을위한 모델 병렬 처리

4.2. 장치의 효율적인 선형 재발

4.3. 더 긴 시퀀스의 훈련 속도

5. 추론 속도

5.1. 디코드 단계의 간단한 모델

5.2. 결과

6. 긴 맥락 모델링 및 6.1. 더 긴 컨텍스트로 다음 토큰 예측 개선

6.2. 복사 및 검색 기능

7. 관련 작품

8. 결론, 인정 및 참고 문헌

A. RG-LRU 재발 게이트

B. 복잡한 게이트 선형 재발 단위 (CG-LRU)

C. 모델 스케일 하이퍼 파라미터

D. 장치의 효율적인 선형 재발

E. 그리핀의 지역주의 창 크기

F. 추론 속도

G. 더 긴 컨텍스트로 다음 토큰 예측 개선 : 추가 결과

H. 사본 및 검색 작업에 대한 추가 세부 사항

E. 그리핀의 지역주의 창 크기

그리핀은 시간적 혼합 블록에 재발 된 블록과 로컬주의 층을 모두 사용합니다. 2048 년의 훈련 시퀀스 길이를 사용하여 이전에 보여준 모든 실험의 경우, 우리는 1024의 로컬주의 창 크기를 사용합니다. 이제 우리는 로컬주의 레이어에 대한 다른 창 크기의 성능이 훈련 시퀀스 길이에 따라 어떻게 다른지 조사합니다.

우리는 2048, 4096 및 8192 토큰의 시퀀스 길이에 대해 훈련 된 400m 매개 변수 모델을 고려합니다.

그림 9 | 다른 로컬주의 창 크기와 다른 훈련 시퀀스 길이를 사용하여 400m 파라미터 그리핀 및 MQA 변압기 모델의 성능. 로컬주의 레이어의 창 크기는 플롯의 각 막대 위에 표시됩니다. 우리는 MQA 변압기의 로컬주의 변형 (창 크기가 훈련 시퀀스 길이보다 작음)의 로컬주의 변형보다 전 세계적 관심 MQA 변압기가 훨씬 우수하다는 것을 알 수 있습니다. 또한 그리핀 모델에 대해 고정 된 로컬주의 창 크기 1024 (플롯에서 '1K'표시)를 사용하면 모든 전 세계적 관심과 지역주의 MQA 변압기 기준선이 모든 훈련 서열 길이에 걸쳐 성능이 우수하다는 것을 알 수 있습니다. 그림 9 | 다른 로컬주의 창 크기와 다른 훈련 시퀀스 길이를 사용하여 400m 파라미터 그리핀 및 MQA 변압기 모델의 성능. 로컬주의 레이어의 창 크기는 플롯의 각 막대 위에 표시됩니다. 우리는 MQA 변압기의 로컬주의 변형 (창 크기가 훈련 시퀀스 길이보다 작음)의 로컬주의 변형보다 전 세계적 관심 MQA 변압기가 훨씬 우수하다는 것을 알 수 있습니다. 또한 그리핀 모델에 대해 고정 된 로컬주의 창 크기 1024 (플롯에서 '1K'표시)를 사용하면 모든 전 세계적 관심과 지역주의 MQA 변압기 기준선이 모든 훈련 서열 길이에 걸쳐 성능이 우수하다는 것을 알 수 있습니다.

여기서 우리는 총 훈련 토큰 수를 고정시킵니다. 각 시퀀스 길이에 대해 다른 로컬주의 창 크기를 사용하여 그리핀 모델을 훈련시킵니다. 기준선으로서, 우리는 글로벌주의 레이어를 사용하여 MQA 변압기와 다른 창 크기를 가진 로컬주의 레이어를 사용하여 MQA 변압기를 훈련시킵니다. 결과는 그림 9에 나와 있으며, 사용 된 창 크기는 각 막대 위에 표시됩니다 (훈련 시퀀스 길이와 동일한 창 크기를 가진 MQA 변압기 바는 MQA 변압기 기준선입니다).

그림 9에서 그리핀의 로컬주의 레이어에 고정 된 창 크기 1024를 사용하더라도 테스트 된 모든 서열 길이에 걸쳐 글로벌주의 MQA 변압기 기준선보다 성능이 우수하다는 것을 알 수 있습니다. 그러나, 로컬주의 창 1024를 갖는 그리핀과 글로벌주의 MQA 변압기가 서열 길이가 증가함에 따라 감소한다는 점은 주목할 가치가 있습니다. 따라서, 시퀀스 길이가 더 커지면, 로컬주의 창 크기를 천천히 성장시키는 것이 중요 할 것입니다. 실제로 사용 된 하드웨어는 교육 및 추론 속도 측면에서 최적의 로컬주의 창 크기를 크게 결정합니다. 마지막으로, 우리는 MQA 변압기 (훈련 시퀀스 길이보다 윈도우 크기)를 순전히 사용하는 MQA 변압기가 Griffin뿐만 아니라 글로벌주의 MQA 변압기보다 상당히 악화된다는 점에 주목합니다.

F. 추론 속도

F.1. 메모리 바운드를 추정합니다

디코딩 시간에서 언어 모델의 추론 속도는 메모리 로딩에 의해 제한됩니다. 이미 4.2에서 설명한 바와 같이, 선형 RNN은 메모리 바운드입니다. 다음에서 우리는 반복 모델과 변압기 모델에서 다른 구성 요소 (선형 층 및 자체 변환)에 대해 이것이 사실임을 보여줄 것입니다.

F.2. 선형 레이어의 메모리 경계를 추정합니다

D.1에 표시된 바와 같이, 외부 치수 (일반적으로 배치 𝐵 및 시퀀스 길이 𝑇 치수로 구성됨)는 계산 경계를 위해서는 136 이상이어야합니다. 디코딩 시간 𝑇 = 1과 𝐵≲128을 가정하면 선형 레이어는 디코딩 시간에 메모리 바인딩됩니다.

F.3. 자기 변환의 기억 경계를 추정합니다

다음에서, 우리는 메모리 바운드임을 보여주기 위해 𝐿 -th decode 단계에 대한주의 계산에 대한 산술 연산에 대한 메모리 액세스의 비율을 계산합니다.

다음 분석을 단순화하기 위해 빈 프롬프트에서 시작한다고 가정합니다 (또는 프리 필드에 0 토큰이 포함되어 있다고 가정합니다).

F.4. 캐시 크기

다음에서 우리는 반복 및 변압기에 사용 된 캐시의 상대 크기를 분석합니다. 모든 캐시 크기는 배치 크기로 선형으로 스케일이며 다음에서는 𝐵 = 1이라고 가정합니다.

F.4.1. KV 캐시의 크기

MHA 또는 MQA의 경우 KV 캐시의 크기는 시퀀스 길이 𝑇가 클 때 모델 매개 변수 수를 초과 할 수 있습니다. 따라서 시퀀스 길이가 짧을 때 ‘파라미터 바인딩’정권으로부터의 전환을 관찰 할 것으로 예상되며, 그 동안 디코딩 속도는 장치의 모델 매개 변수를로드하는 데 걸리는 시간에 의해 지배적이며, 큰 시퀀스에 대한 ‘캐시 결합’제도에 디코딩 속도를로드하는 데 걸리는 시간에 따라 디코딩 속도가 지배적이다.

F.4.2. 재발 상태의 크기

F.4.3. 로컬주의 캐시

G. 더 긴 컨텍스트로 다음 토큰 예측 개선 : 추가 결과

그림 10은 ARXIV 기사의 고정 된 데이터 세트에서 다른 컨텍스트 길이에서 다음 토큰 예측 성능을 보여주는 추가 결과를 보여줍니다. 이 데이터 세트의 결과는도 5에 표시된 결과와 질적으로 유사하다는 것을 알았습니다.

그림 10 | ARXIV 기사의 유지 평가 세트에서 다양한 시퀀스 길이에 걸쳐 1B 매개 변수 모델의 평가 성능. 왼쪽에서, 우리는 서열 길이 2048로 훈련 된 다른 모델의 성능을 최대 32,768의 서열 길이로 평가합니다. 오른쪽에서, 우리는 2048 (2k)와 8192 (8k) 시퀀스 길이에 각각 훈련 될 때 그리핀과 호크를 비교합니다. 결과는 질적으로도 5에 제시된 책에 대한 평가와 유사하다. 그림 10 | ARXIV 기사의 유지 평가 세트에서 다양한 시퀀스 길이에 걸쳐 1B 매개 변수 모델의 평가 성능. 왼쪽에서, 우리는 서열 길이 2048로 훈련 된 다른 모델의 성능을 최대 32,768의 서열 길이로 평가합니다. 오른쪽에서, 우리는 2048 (2k)와 8192 (8k) 시퀀스 길이에 각각 훈련 될 때 그리핀과 호크를 비교합니다. 결과는 질적으로도 5에 제시된 책에 대한 평가와 유사하다.