Jamba가 긴 상황에 맞는 최초의 진정으로 확장 가능한 하이브리드 LLM 인 이유

저자 :

(1) 동등한 기여를 가진 Opher Lieber; (2) Barak Lenz, 동등한 기여; (3) Hofit Bata; (4) 갈 코헨; (5) Jhanathan Osin; (6) Itay Dalmedigos; (7) Erez Safahi; (8) Meirom을 깎았다. (9) 야나탄 엘 린코프; (10) Shai Shalev-Shwartz; (11) Omri Abend; (12) 라즈 알론; (13) Tomer Asida; (14) Amir Bergman; (15) 로마 글로로 만; (16) Michael Gokhman; (17) Avashalom Manevich; (18) Nir Ratner; (19) Noam Rozen; (20) Erez Shwartz; (21) Mor Zusman; (22) Yoav Shoham.

링크 표

1 부

2 부

파트 3

파트 4

파트 5

파트 6

6.2 왜 조합이 작동합니까?

Pure Mamba 모델은 일반적인 당연한 평가를 포함하여 대부분의 작업에서 초기에 상당히 좋은 결과를 보여주었습니다. 그러나 세 가지 일반적인 벤치 마크 작업에서 순수한주의 모델보다 실질적으로 더 나빴습니다. IMDB [28]quac [5]그리고 NarrativeQa [25]. 대조적으로, 하이브리드주의 말이 이들 데이터 세트의주의 모델과 유사하게 수행되었다. 표 6은 250b 토큰 후 1.3b 모델의 결과를 보여줍니다.

표 6 : Mamba는 특정 데이터 세트에서 제대로 성능을 발휘하는 반면, 주의력-하이브리드는주의 모델과 동등하게 수행됩니다.

이러한 결과를 더 살펴보면 순수한 맘바 모델이 종종 올바른 형식을 따르지 않는다는 것을 알았습니다. 예를 들어, IMDB 데이터 세트에서 답변 선택은 “긍정적”또는 “음성”입니다. 주의 모델은이 형식을 준수하지만 순수한 맘바 모델은 종종 “매우 좋음”, “매우 긍정적 인”, “재미”, “나쁜”, “가난한”및 “3/10″과 같은 다른 답변을 생성합니다. 이것들은 정답으로 간주 될 수 있지만, Mamba가 형식을 준수하는 데 어려움은 잠재적 인 문제를 시사합니다. 실제로, 성공적인 텍스트 학습을 수행하려면 모델이 입력 출력 형식을 캡처하는 것이 중요합니다. [30]. 하이브리드주의 말라 모델은 순수한주의 모델과 마찬가지로 형식을 성공적으로 따릅니다.

우리는이 현상이 SSM의 한계, 즉 컨텍스트 내 학습 (ICL)의 잠재적 어려움을 가리킨다는 가설을 세웁니다. 실제로, ICL을 수행하는 능력은 훈련 중에 변압기 언어 모델에서 소셜 유도 헤드의 출현과 관련이 있으며, 이는 ICL을 지원하는 대략적인 복사 작업을 수행합니다. [31]. 우리는 순수한 맘바 모델에서주의 메커니즘이 부족하여 텍스트에서 배우기가 어렵다고 추측합니다. Mamba는 명시 적으로 훈련을받을 때 간단한 ICL을 복사하고 수행하는 법을 배울 수 있습니다.[16, 32]ICL이 변압기 모델과 마찬가지로 SSM에서 출현 기능인지는 확실하지 않습니다. 대조적으로, 하이브리드주의 – Mamba 모델은 8 개의 층 중 1 개만주의를 기울인 경우에도 성공적인 ICL을 수행합니다.

응급 유도 메커니즘의 일화적인 증거로서, 우리는 순수한 맘바가 실패하고 하이브리드가 성공한 IMDB 예제에서 1.3b주의-맘바 하이브리드 모델 (MOE 없음)의 예제 헤드의주의를 그림 7에서 시각화합니다. 분명히, 마지막 토큰 (“:”)의 관심은 소수의 예제의 레이블에 중점을 둡니다. 우리는 3 개의주의 층 (모델의 층 4, 12, 20에 해당)에서 하이브리드 모델에서 12 개의 헤드를 발견했습니다.

그림 7 : 하이브리드주의 말라 모델의 예제 유도 헤드 (H3, 첫 번째주의 층). 강조 표시된 단어는 모델이 레이블을 예측하기 직전에 마지막 토큰 인“:”의 강한 관심을 반영합니다. 우리는 몇 가지 샷 예제의 레이블 토큰에 관심이 집중되어 있음을 알 수 있습니다. 그림 7 : 하이브리드주의 말라 모델의 예제 유도 헤드 (H3, 첫 번째주의 층). 강조 표시된 단어는 모델이 레이블을 예측하기 직전에 마지막 토큰 인“:”의 강한 관심을 반영합니다. 우리는 몇 가지 샷 예제의 레이블 토큰에 관심이 집중되어 있음을 알 수 있습니다.

향후 작업은 하이브리드 모델에서 ICL의 출현을 대규모로 조사 할 수 있습니다. 우리의 석방 된 검문소는 그러한 조사를 촉진 할 것입니다. 마지막으로, 최근의 작업은 Mamba와 같은 주 공간 모델에서 관심과 같은 점수를 추출하려고 시도했습니다. [1]상태 공간 모델에서 유도 기능을 검색하는 또 다른 방향이 열립니다.

출처 참조

최신 기술 뉴스 정보 모두

Jamba가 긴 상황에 맞는 최초의 진정으로 확장 가능한 하이브리드 LLM 인 이유

링크 표

6.2 왜 조합이 작동합니까?

Post Comment 응답 취소

당신은 놓쳤을 수도 있습니다

아마존

글로벌 운동가 설문 조사에 따르면 Facebook은 온라인 괴롭힘으로 최악의 순위입니다.

Tesla는 샌프란시스코에서 택시 서비스를 제공하지만 Robotaxis는 아닙니다.

차임 후원자 Lauren Kolodny는 부동산 처리 혁명을 위해 AI에 베팅합니다.

5 개의 저렴한 차량에 대해 연구하고 싶을 것입니다

Nintendo Switch 2를위한 최고의 MicroSD 카드 2

새로운 픽셀 10 누출

시청 : 사이보그 딱정벌레, 오픈 소스 휴머노이드 등

iOS 26 공개 베타를 설치하는 방법

나이 확인 된 인터넷이 도착했습니다

링크 표

6.2 왜 조합이 작동합니까?

Related Posts

Post Comment 응답 취소

당신은 놓쳤을 수도 있습니다