Jamba가 긴 상황에 맞는 최초의 진정으로 확장 가능한 하이브리드 LLM 인 이유
저자 :
(1) 동등한 기여를 가진 Opher Lieber; (2) Barak Lenz, 동등한 기여; (3) Hofit Bata; (4) 갈 코헨; (5) Jhanathan Osin; (6) Itay Dalmedigos; (7) Erez Safahi; (8) Meirom을 깎았다. (9) 야나탄 엘 린코프; (10) Shai Shalev-Shwartz; (11) Omri Abend; (12) 라즈 알론; (13) Tomer Asida; (14) Amir Bergman; (15) 로마 글로로 만; (16) Michael Gokhman; (17) Avashalom Manevich; (18) Nir Ratner; (19) Noam Rozen; (20) Erez Shwartz; (21) Mor Zusman; (22) Yoav Shoham.
링크 표
1 부
2 부
파트 3
파트 4
파트 5
파트 6
6.2 왜 조합이 작동합니까?
Pure Mamba 모델은 일반적인 당연한 평가를 포함하여 대부분의 작업에서 초기에 상당히 좋은 결과를 보여주었습니다. 그러나 세 가지 일반적인 벤치 마크 작업에서 순수한주의 모델보다 실질적으로 더 나빴습니다. IMDB [28]quac [5]그리고 NarrativeQa [25]. 대조적으로, 하이브리드주의 말이 이들 데이터 세트의주의 모델과 유사하게 수행되었다. 표 6은 250b 토큰 후 1.3b 모델의 결과를 보여줍니다.
이러한 결과를 더 살펴보면 순수한 맘바 모델이 종종 올바른 형식을 따르지 않는다는 것을 알았습니다. 예를 들어, IMDB 데이터 세트에서 답변 선택은 “긍정적”또는 “음성”입니다. 주의 모델은이 형식을 준수하지만 순수한 맘바 모델은 종종 “매우 좋음”, “매우 긍정적 인”, “재미”, “나쁜”, “가난한”및 “3/10″과 같은 다른 답변을 생성합니다. 이것들은 정답으로 간주 될 수 있지만, Mamba가 형식을 준수하는 데 어려움은 잠재적 인 문제를 시사합니다. 실제로, 성공적인 텍스트 학습을 수행하려면 모델이 입력 출력 형식을 캡처하는 것이 중요합니다. [30]. 하이브리드주의 말라 모델은 순수한주의 모델과 마찬가지로 형식을 성공적으로 따릅니다.
우리는이 현상이 SSM의 한계, 즉 컨텍스트 내 학습 (ICL)의 잠재적 어려움을 가리킨다는 가설을 세웁니다. 실제로, ICL을 수행하는 능력은 훈련 중에 변압기 언어 모델에서 소셜 유도 헤드의 출현과 관련이 있으며, 이는 ICL을 지원하는 대략적인 복사 작업을 수행합니다. [31]. 우리는 순수한 맘바 모델에서주의 메커니즘이 부족하여 텍스트에서 배우기가 어렵다고 추측합니다. Mamba는 명시 적으로 훈련을받을 때 간단한 ICL을 복사하고 수행하는 법을 배울 수 있습니다.[16, 32]ICL이 변압기 모델과 마찬가지로 SSM에서 출현 기능인지는 확실하지 않습니다. 대조적으로, 하이브리드주의 – Mamba 모델은 8 개의 층 중 1 개만주의를 기울인 경우에도 성공적인 ICL을 수행합니다.
응급 유도 메커니즘의 일화적인 증거로서, 우리는 순수한 맘바가 실패하고 하이브리드가 성공한 IMDB 예제에서 1.3b주의-맘바 하이브리드 모델 (MOE 없음)의 예제 헤드의주의를 그림 7에서 시각화합니다. 분명히, 마지막 토큰 (“:”)의 관심은 소수의 예제의 레이블에 중점을 둡니다. 우리는 3 개의주의 층 (모델의 층 4, 12, 20에 해당)에서 하이브리드 모델에서 12 개의 헤드를 발견했습니다.
향후 작업은 하이브리드 모델에서 ICL의 출현을 대규모로 조사 할 수 있습니다. 우리의 석방 된 검문소는 그러한 조사를 촉진 할 것입니다. 마지막으로, 최근의 작업은 Mamba와 같은 주 공간 모델에서 관심과 같은 점수를 추출하려고 시도했습니다. [1]상태 공간 모델에서 유도 기능을 검색하는 또 다른 방향이 열립니다.
Post Comment