기술 사업 및 스타트업 테크노에 대한 모든 것 Tae-yang (태양) 2월 26, 2025 0 Comments

AI 모델 성능에 메모리 I/O 효율이 중요한 이유

저자 :

(1) Ben Athiwaratkun, AWS AI Labs;

(2) Sujan Kumar Gonugondla, AWS AI Labs;

(3) Sanjay Krishna Gouda, AWS AI Labs;

(4) Haifeng Qian, AWS AI Labs;

(5) Sanjay Krishna Gouda, AWS AI Labs;

(6) Hantian Ding, AWS AI Labs;

(7) Qing Sun, AWS AI Labs;

(8) Jun Wang, AWS AI Labs;

(9) Jiacheng Guo, AWS AI Labs;

(10 Liangfu Chen, AWS AI Labs;

(11) Parminder Bhatia, GE Healthcare (AWS에서 수행);

(12) Ramesh Nallapati, Amazon Agi (AWS에서 수행);

(13) Sudipta Sengupta, AWS AI Labs;

(14) Bing Xiang, Goldman Sachs (AWS에서 수행).

링크 표

초록 및 1 소개

2. 관련 작업

3. 배경

3.1. 표기법 및 3.2. 언어 모델 추론

3.3. 멀티 쿼리, 멀티 헤드 및 일반화 된 멀티 쿼리주의

4. 맥락 인식이 분기 된 관심과 4.1. 동기 부여

4.2. 제형 및 4.3. 메모리 IO 복잡성

5. 실험

5.1. 멀티 헤드, 멀티 쿼리 및 다중 그룹주의의 기능을 비교합니다

5.2. 기능-동등한 모델의 대기 시간

5.3. 응용 프로그램

6. 결론과 참고 문헌

A. FAQ

B. 관련 작업

C. 설정

D. 다중 그룹주의 가족

E. 맥락 인식은 관심을 끌었다

F. 응용 프로그램 : 추가 결과

G. 투기 디코딩 및 빠른 디코딩 기술과의 호환성

B.1. 단일 컨텍스트 배치 샘플링의 응용

우리가 달성 한 관찰 된 대기 시간 감소는 많은 응용 프로그램에 중대한 영향을 줄 수 있습니다. 이러한 응용 프로그램 중 일부는 다음과 같습니다.

• 코드 생성 : 소프트웨어 개발에서 AI 지원 코드 생성은 특히 주어진 컨텍스트에 대한 여러 코드 스 니펫 또는 제안을 생성 할 때 대기 시간이 줄어 듭니다. 이로 인해 AI 기반 통합 개발 환경 (IDE) 또는 코드 완료 도구 (Nijkamp et al., 2023; Chen et al., 2021; Le et al., 2022를 사용하는 개발자에게보다 반응이 좋고 효율적인 사용자 경험이 생길 수 있습니다. Fried et al., 2022; 2021).

• 기계 번역 : 다양한 방언에 대한 변환을 생성하거나 다른 방언에 대한 번역을 생성하는 것과 같은 단일 입력에 여러 번역이 필요한 상황에서, 상황을 인식하는 분기 된 관심은보다 효율적인 계산을 제공하여 더 빠르고 확장 가능합니다. 기계 번역 서비스 (Costajussà et al., 2022; Farhad et al., 2021; Tran et al., 2021; yee et al., 2019).

• 챗봇 및 대화 AI : 대화 에이전트는 종종 사용자의 입력에 대한 다른 해석을 처리하거나 여러 제안을 제공하기 위해 여러 응답을 생성해야합니다. 제안 된 방법에 의해 제공되는 감소 된 대기 시간은 챗봇의 응답 성을 크게 향상시켜 사용자와보다 자연스럽고 유동적 인 대화로 이어질 수 있습니다 (Google, 2023).

• 창의적 콘텐츠 생성 :시, 이야기 또는 광고 생성과 같은 응용 프로그램에서 주어진 프롬프트에 대한 여러 가지 변형을 생성하는 기능이 중요합니다. 제안 된 방법은보다 효율적인 다양한 컨텐츠를 생성하여 실시간 또는 대규모 응용 프로그램에 대해 더욱 실현 가능합니다 (Lin and Riedl, 2021; Mirowski et al., 2023; Team, 2023; Yuan et al., 2022).

• 데이터 확대 : 머신 러닝을위한 데이터 확대의 맥락에서 주어진 입력에 대한 여러 대안 예제를 생성하면 모델 견고성과 일반화를 향상시키는 데 도움이 될 수 있습니다. 컨텍스트 인식 분기 된주의에 의해 제공되는 감소 된 대기 시간을 통해, 증강 데이터를 생성하는 프로세스가 더 빠르게 만들어 질 수있어 훈련 중에 계산 자원을보다 효율적으로 사용 할 수 있습니다.

• 일반적인 대규모 평가 : 앞서 언급 한 사용 사례 외에도 LLM 및 기타 개방형 생성 모델이 독성에 대해 탐색되는 많은 틈새 사용 사례가 있습니다 (Dathathri et al., 2019; Gehman et al., 2020; Nadeem et al., 2020), 세대에서 취약한 코드의 탐지 (Pearce et al., 2022), 성능 향상 코드 편집 생성 (Madaan et al., 2023), 프로그래밍 언어 번역 (Roziere et al., 2020) 및 기타 많은 것들. 이러한 모든 시나리오에서 모델에 대한 더 깊은 이해를 위해 각 프롬프트 당 여러 세대가 수집되며,이 분기 된주의는 그러한 경우에 세대 프로세스의 급격히 속도를 높일 수 있습니다.

결론적으로, 제안 된 컨텍스트 인식 분기주의 방법은 메모리 I/O 비용을 크게 줄이고 다양한 응용 분야에서 대기 시간을 향상시켜 효율성과 확장 성을 향상시킬 수 있습니다. 이 방법은 새로운 사용 사례를 가능하게하고 수많은 AI 기반 시스템에서 사용자 경험을 향상시켜 실제 배포를 위해보다 실용적입니다.

B.2. 긴 맥락을 지원하려면 IO-EFFICED주의가 필요합니다

언어 모델이 일반적인 목적이되고 능력이 높아짐에 따라 더 긴 맥락 시퀀스를 처리하려는 언어 모델에 대한 수요가 크게 증가했습니다. 최근에, 더 긴 컨텍스트 시퀀스를 처리 할 수있는 모델에 중점을두고있다 (Bulatov et al., 2023; OpenAi, 2023; Team, 2023). 현재 GPT-4 (OpenAi, 2023)는 32K 토큰의 컨텍스트 길이를 지원하고 MPT-7B (Team, 2023)는 64K로 연장되는 반면 Anthropic의 Claude [3] 100K 입력 길이 만 지원합니다. 가장 최근에 Bulatov 등은 변압기의 1m 토큰 입력 컨텍스트 길이를 제안했습니다. 이러한 모델은 상황에 대한 이해와 세대 기능의 경계를 넓히고보다 포괄적 인 담론 이해와 상황에 따라 정보를 제공 할 수있게합니다.

이러한 추세는 검색-증류 생성 (RAG)과 같은 응용 분야에서 포괄적 인 담론 이해가 필요하고 많은 복잡한 프롬프트 방법에 의해 주도됩니다. RAG (Guu et al., 2020; Izacard et al., 2022; Menick et al., 2022; Zhen et al., 2022)와 같은 응용 프로그램은 외부 Corpora에서 광범위한 구절이나 문서를 검색하여 응답을 생성하기위한 풍부하고 근거가있는 맥락을 제공합니다. . 또한 Toolformer (Schick et al., 2023) 및 WebGpt (Nakano et al., 2021)와 같은 모델은 API 및 검색 엔진과 같은 외부 도구를 활용하여 컨텍스트를 확장하고 생성을 향상시킵니다.

바닐라 자체 변환의 경우 메모리와 시간 복잡성이 모두 서열 길이에 2 차이기 때문에 긴 맥락은 변압기 패밀리 모델의 경우 불균형 적으로 비쌉니다. 더 긴 컨텍스트 시퀀스를 효과적으로 처리하려면 메모리 I/O를 최적화하고 계산 오버 헤드를 줄이는 것이 중요합니다. 현재이 도전을 해결하기위한 지배적 인 접근 방식은주의 계산을 저렴하게 만드는 것이 었습니다. Beltagy et al. (2020)은 다양한주의 패턴을 사용하여 자기 변환을 약화시키기 위해 제안했다. Wang et al. (2020)는 자기 소지의 낮은 순위 근사를 탐구합니다. 계산 경계 개선 외에도 메모리 효율적인주의 메커니즘 및 메모리 I/O를 줄이기위한 기술의 발전은 필드를 계속 발전시켜 언어 모델에서 더 긴 컨텍스트 시퀀스의 처리를 용이하게 할 것입니다. FlashAttention (Dao et al., 2022)은 근사치없이 자체 변환 속도를 높이고 메모리 발자국을 줄이기 위해 제안됩니다. 매트릭스 곱셈 및 SoftMax 작동을 위해 퓨즈 커널을 활용하여 훈련 중에 메모리 IO를 크게 줄입니다.

[3]

출처 참조