LLM 개발의 미래는 오픈 소스입니다

편집자에 의한 이미지 | chatgpt

틀 소개

대형 언어 모델 (LLM)의 미래는 소수의 기업 실험실에 의해 지시되지 않습니다. 그것은 전 세계의 수천 개의 마음에 의해 형성 될 것이며, 개방형으로 반복되어 회의실 승인을 기다리지 않고 경계를 밀어 넣을 것입니다. 오픈 소스 운동은 이미 독점적 인 상대방과의 보조를 맞추고 일부 지역에서는 속도를 유지할 수 있음을 보여주었습니다. Deepseek, 누구?

유출 된 무게와 애호가 빌드의 세분으로 시작된 것은 이제 포효하는 전류입니다. 조직은 다음과 같습니다. 포옹 얼굴,,, 미스트랄그리고 Eleutherai 탈 중앙화는 장애를 의미하지 않는다는 것을 증명하고 있습니다. 이는 가속을 의미합니다. 우리는 개방성이 힘과 같은 단계에 들어갑니다. 벽이 내려오고 있습니다. 그리고 닫힌 문을 고집하는 사람들은 쉽게 무너질 수있는 성을 방어하는 것을 발견 할 수 있습니다.

틀 오픈 소스 LLM은 따라 잡는 것이 아니라 승리하고 있습니다

천 달러 규모의 회사의 마케팅 광택을 지나서 다른 이야기가 전개되는 것을 보게 될 것입니다. Llama 2, Mistral 7b 및 Mixtral은 더 많은 매개 변수와 계산이 필요한 밀폐 된 모델에 대한 무게를 높이고있는 기대치보다 우수합니다. 오픈 소스 혁신은 더 이상 반동적이지 않으며 적극적입니다.

그 이유는 특히 기업 위험 관리, 합법적 인 빨간 테이프 및 완벽주의 문화에 의해 독점적 인 LLM이 방해되기 때문에 구조적입니다. 오픈 소스 프로젝트? 그들은 배송합니다. 그들은 빨리 반복하고, 물건을 깨고, 더 잘 재건합니다. 사내 팀이 규모로 복제 할 수없는 방식으로 실험과 검증을 모두 크라우드 소싱 할 수 있습니다. 단일 Reddit 스레드는 릴리스 후 몇 시간 내에 버그를 표면하고 영리한 프롬프트를 발견하며 취약점을 드러 낼 수 있습니다.

또한 기고자의 새로운 생태계 (개인 데이터에 대한 미세 조정 모델, 연구원들은 평가 스위트를 구축하고, 엔지니어를 제작하는 추론 런타임)의 생계를 유지하는 것은 살아있는 호흡 엔진입니다. 어떤면에서, 닫힌 AI는 항상 반응성이 있습니다. 열린 AI는 살아 있습니다.

틀 탈 중앙화는 혼돈을 의미하지 않습니다 – 그것은 통제를 의미합니다

비평가들은 오픈 소스 LLM 개발을 Wild West로 틀어 오용의 위험으로 가득 차 있습니다. 그들이 무시하는 것은 개방성이 책임을 부정하지 않는다는 것입니다. 투명성은 조사를 촉진합니다. 포크는 전문화를 소개합니다. 가드 레일은 공개적으로 테스트, 토론 및 개선 될 수 있습니다. 커뮤니티는 혁신가와 감시자가됩니다.

대조적으로 바이어스 감사가 내부 인 폐쇄 회사의 불투명 모델 릴리스와 대조적으로, 안전 방법은 비밀이며, “책임있는 AI”프레세스 (Pretexts)에 따라 중요한 세부 사항이 수정됩니다. 오픈 소스 세계는 더 지저분해질 수 있지만 훨씬 더 민주적이고 접근 가능합니다. 그것은 몇몇 실리콘 밸리 CEO들의 손에 통합되어서는 안된다는 것을 인정한다.

Open LLMS는 또한 스타트 업, 저주적 국가의 연구원, 교육자 및 예술가 (예술가 및 예술가)의 스타트 업, 그렇지 않으면 조직에 권한을 부여 할 수 있습니다. 올바른 모델 가중치와 창의성을 사용하면 이제 코드 작성, 워크 플로 자동화 또는 향상 여부에 관계없이 자신의 비서, 교사, 분석가 또는 공동 부채로 구축 할 수 있습니다. Kubernetes 라이센스 비용 또는 API 제한이없는 클러스터. 그것은 사고가 아닙니다. 그것은 패러다임 전환입니다.

틀 회의실에서는 정렬 및 안전이 해결되지 않습니다

열린 LLM에 대한 가장 지속적인 주장 중 하나는 안전, 특히 정렬, 환각 및 오용에 대한 우려입니다. 그러나 여기에는 어려운 진실이 있습니다. 그 문제는 더 이상은 아니더라도 폐쇄 된 모델을 괴롭 히고 있습니다. 실제로 방화벽 뒤에 코드를 잠그면 오용을 방해하지 않습니다. 그것은 이해를 방해합니다.

개방형 모델은 정렬 기술에서 실제 분산 실험을 허용합니다. 커뮤니티 주도의 빨간 팀, 크라우드 소스 RLHF (인간 피드백으로부터의 강화 학습) 및 분산 해석 가능성 연구는 이미 번성하고 있습니다. 오픈 소스는 문제에 더 많은 시선을 불어 넣고, 더 많은 다양성의 관점 및 실제로 일반화되는 기술을 발견 할 수있는 기회가 더 많습니다.

또한, 개방형 개발은 맞춤형 정렬을 허용합니다. 모든 커뮤니티 나 언어 그룹이 동일한 안전 선호도가 필요한 것은 아닙니다. 전 세계적으로 배포 될 때 미국 법인의 한 가지 크기에 맞는“Guardian AI”는 필연적으로 부족할 것입니다. 문화적 뉘앙스와 함께 투명하게 지역의 정렬은 접근이 필요합니다. 그리고 액세스는 개방성으로 시작합니다.

틀 경제 인센티브도 변화하고 있습니다

오픈 소스 모멘텀은 단순한 이데올로기가 아니라 경제적입니다. Open LLM에 의존하는 회사는 영업 비밀과 같은 모델을 지키는 사람들을 능가하기 시작했습니다. 왜? 생태계가 독점을 이겼 기 때문입니다. 다른 사람들이 구축 할 수있는 모델이 기본값이됩니다. 그리고 AI에서는 기본값이되는 것은 모든 것을 의미합니다.

무슨 일이 있었는지보세요 피해자,,, 텐서 플로그리고 포옹 페이스의 변압기 라이브러리. AI에서 가장 널리 채택 된 도구는 오픈 소스 정신을 조기에 수용하는 도구입니다. 이제 우리는 기본 모델과 동일한 트렌드가 재생되는 것을보고 있습니다. 개발자는 API가 아닌 액세스를 원합니다. 그들은 서비스 약관이 아니라 수정 가능성을 원합니다.

또한 기초 모델 개발 비용이 크게 떨어졌습니다. 오픈-가이트 체크 포인트, 합성 데이터 부트 스트랩 및 양자화 된 추론 파이프 라인을 통해 중간 규모의 회사조차도 자신의 LLM을 훈련 시키거나 미세 조정할 수 있습니다. 한때 Big Ai가 즐겼던 경제 해자는 마르고 있습니다. 그리고 그들은 그것을 알고 있습니다.

틀 미래에 대해 큰 ai가 잘못되는 것

기술 거대 기업들은 여전히 브랜드, 컴퓨팅 및 자본이이를 AI 지배력으로 이끌 것이라고 믿고 있습니다. LLAMA 3 모델은 여전히 오픈 소스를 유지하면서 메타가 유일한 예외 일 수 있습니다. 그러나 그 가치는 상류로 표류하고 있습니다. 더 이상 누가 가장 큰 모델을 구축하는지에 관한 것이 아닙니다. 누가 가장 유용한 모델을 구축하는지에 관한 것입니다. 유연성, 속도 및 접근성은 새로운 전장이며 모든 전선에서 오픈 소스 승리입니다.

오픈 커뮤니티가 언어 모델 관련 혁신을 얼마나 빨리 구현하는지 살펴보십시오. FlashAttention,,, 로라,,, Qlora전문가 (MOE) 라우팅의 혼합-각각 몇 주 또는 며칠 내에 채택 및 재 구현되었습니다. Github에 단일 GPU에서 12 개의 포크가 실행되기 전에 독점 실험실은 논문을 간신히 게시 할 수 있습니다. 그 민첩성은 인상적이지 않고 규모에 따라 타의 추종을 불허합니다.

독점적 인 접근 방식은 사용자가 마술을 원한다고 가정합니다. 열린 접근 방식은 사용자가 대행사를 원한다고 가정합니다. 또한 LLM 사용 사례에서 개발자, 연구원 및 기업이 성숙함에 따라 독립적으로 이해, 형성 및 배포 할 수있는 모델에 중점을 둡니다. Big AI가 피벗하지 않으면 충분히 똑똑하지 않았기 때문입니다. 그들이 듣기에는 너무 거만했기 때문일 것입니다.

틀 최종 생각

조수가 바뀌 었습니다. 오픈 소스 LLM은 더 이상 프린지 실험이 아닙니다. 그것들은 언어 AI의 궤적을 형성하는 중심 힘입니다. 그리고 데이터 파이프 라인에서 교육 인프라, 배포 스택에 이르기까지 진입 장벽이 떨어짐에 따라 더 많은 목소리가 대화에 참여하고, 더 많은 문제가 공개적으로 해결 될 것이며, 모든 사람이 볼 수있는 더 많은 혁신이 일어날 것입니다.

그렇다고해서 우리가 모든 폐쇄 된 모델을 포기한다는 의미는 아닙니다. 그러나 개방형 경쟁자가 존재하는 세상에서 자신의 가치를 증명해야하며 종종 성능이 뛰어납니다. 비밀과 통제의 오래된 기본값이 무너지고 있습니다. 그 자리에는 진정한 지능이 공유되어야한다고 믿는 땜장이, 연구원, 엔지니어 및 예술가의 활기차고 글로벌 네트워크가 있습니다.

Nahla Davies 소프트웨어 개발자 및 기술 작가입니다. 그녀는 풀 타임으로 기술 작문에 헌신하기 전에 다른 흥미로운 것들로 인해 Samsung, Time Warner, Netflix 및 Sony를 포함하는 Inc. 5,000 Experiential Branding Organization의 리드 프로그래머 역할을 수행했습니다.

출처 참조