연구원들은 소규모 언어 모델이 새로운 분노라고 말합니다

연구원들은 소규모 언어 모델이 새로운 분노라고 말합니다

원래 버전 ~의 이 이야기 나타났습니다 얼마나 많은 잡지.

큰 언어 모델은 너무 커서 잘 작동합니다. OpenAI, Meta 및 DeepSeek의 최신 모델은 수백억 개의 “매개 변수”를 사용합니다. 이는 데이터 간 연결을 결정하고 교육 프로세스 중에 조정되는 조정 가능한 손잡이입니다. 더 많은 매개 변수를 사용하면 모델이 패턴과 연결을 더 잘 식별 할 수있어 더욱 강력하고 정확하게 만듭니다.

그러나이 힘은 비용이 많이 듭니다. 수백 억 개의 매개 변수로 모델을 훈련시키는 데 큰 계산 자원이 필요합니다. 예를 들어 Gemini 1.0 Ultra 모델을 훈련시키기 위해 Google은 1 억 9 천만 달러. LLMS (Largin Language Model)는 요청에 응답 할 때마다 상당한 계산 능력이 필요하므로 악명 높은 에너지 돼지가됩니다. chatgpt에 대한 단일 쿼리 약 10 번 소비합니다 Electric Power Research Institute에 따르면 단일 Google 검색만큼 많은 에너지가 있습니다.

이에 따라 일부 연구자들은 이제 작게 생각하고 있습니다. IBM, Google, Microsoft 및 OpenAi는 최근 LLM의 일부인 수십억 개의 매개 변수를 사용하는 SLM (Small Language Models)을 출시했습니다.

작은 모델은 큰 사촌과 같은 일반 목적 도구로 사용되지 않습니다. 그러나 대화 요약, 환자 질문에 대한 질문에 대한 답변 및 스마트 장치에서 데이터 수집과 같이 구체적이고 좁게 정의 된 작업을 탁월 할 수 있습니다. “많은 작업의 경우 80 억 개의 파라미터 모델이 실제로 꽤 좋습니다.”라고 말했습니다. 지코 콜터Carnegie Mellon University의 컴퓨터 과학자. 또한 거대한 데이터 센터 대신 노트북이나 휴대 전화로 실행할 수도 있습니다. (“작은”의 정확한 정의에 대한 합의는 없지만 새로운 모델은 모두 약 100 억 개의 매개 변수를 최대한 활용합니다.)

이 작은 모델의 교육 프로세스를 최적화하기 위해 연구원들은 몇 가지 트릭을 사용합니다. 대형 모델은 종종 인터넷에서 원시 교육 데이터를 긁어 내며이 데이터는 조직화되고 지저분하며 처리하기 어려울 수 있습니다. 그러나 이러한 대형 모델은 작은 모델을 훈련시키는 데 사용할 수있는 고품질 데이터 세트를 생성 할 수 있습니다. 지식 증류라고하는이 접근법은 더 큰 모델이 학생에게 교훈을주는 교사와 같이 교육을 효과적으로 전달할 수 있도록합니다. “이유 [SLMs] 이러한 작은 모델로 너무 잘 잡히고 작은 데이터는 지저분한 것 대신 고품질 데이터를 사용한다는 것입니다.”라고 Kolter는 말했습니다.

연구원들은 또한 큰 모델부터 시작하여 다듬어 작은 모델을 만들 수있는 방법을 탐구했습니다. 가지 치기로 알려진 하나의 방법은 불필요하거나 비효율적 인 부분을 제거하는 것을 수반합니다. 신경망– 큰 모델의 기초가되는 연결된 데이터 포인트의 거대한 웹.

가지 치기는 실제 신경 네트워크 인 인간 뇌에서 영감을 얻었으며, 이는 사람의 시냅스 사이의 연결을 흘려 효율성을 얻습니다. 오늘의 가지 치기 접근 방식은 다시 추적합니다 1989 년 종이 현재 메타에있는 컴퓨터 과학자 Yann Lecun은 훈련 된 신경망의 매개 변수의 최대 90 %가 효율성을 희생하지 않고 제거 될 수 있다고 주장했다. 그는이 방법을“최적의 뇌 손상”이라고 불렀습니다. 가지 치기는 연구원들이 특정 작업이나 환경에 대한 작은 언어 모델을 미세 조정하는 데 도움이 될 수 있습니다.

언어 모델이 자신이하는 일을하는 방식에 관심이있는 연구자들에게는 소규모 모델이 새로운 아이디어를 테스트하는 저렴한 방법을 제공합니다. 그리고 큰 모델보다 매개 변수가 적기 때문에 추론이 더 투명 할 수 있습니다. “새로운 모델을 만들고 싶다면 일을 시도해야합니다.” Leshem ChoshenMIT-IBM Watson AI Lab의 연구 과학자. “소형 모델을 통해 연구자들은 지분이 낮은 실험을 할 수 있습니다.”

계속 증가하는 매개 변수를 갖춘 크고 비싼 모델은 일반화 된 챗봇, 이미지 생성기 및와 같은 응용 프로그램에 유용합니다. 마약 발견. 그러나 많은 사용자에게는 작고 타겟팅 된 모델도 잘 작동하면서 연구원이 훈련하고 구축하기가 더 쉬워집니다. Choshen은“이러한 효율적인 모델은 비용, 시간 및 계산을 절약 할 수 있습니다.


오리지널 이야기 허가로 재 인쇄되었습니다 얼마나 많은 잡지,,, 편집 적으로 독립적 인 출판물 시몬스 재단 그의 사명은 수학과 물리 및 생명 과학의 연구 개발과 트렌드를 다루어 과학에 대한 대중의 이해를 향상시키는 것입니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다