기술 사업 및 스타트업 테크노에 대한 모든 것 Tae-yang (태양) 6월 28, 2025 0 Comments

Sutra-online : 실시간, 사실 LLM 쿼리에 대한 정량적 평가

링크 표

초록 및 1 소개

2 관련 작업

3 부트라 접근

3.1 Sutra는 무엇입니까?

3.2 건축

3.3 교육 데이터

4 다국어 토큰 화제 교육

5 다국어 MMLU

5.1 대규모 멀티 태스킹 언어 이해

5.2 MMLU를 여러 언어로 확장하고 5.3 언어에서 일관된 성능

5.4 다국어 성능을위한 주요 모델과 비교

6 실시간 쿼리에 대한 정량적 평가

7 토론과 결론, 참고 문헌

6 실시간 쿼리에 대한 정량적 평가

Sutra 모델은 대화 톤으로 사실적인 반응을 제공하는 최신 및 환각이없는 모델이 연결되어 있습니다. 이들은 인터넷에서 실시간 지식을 사용, 추론 및 처리하는 온라인 LLM이며이를 활용하여 응답을 형성 할 때 최신 정보를 제공합니다. Sutra 온라인 모델은 시간에 민감한 쿼리에 정확하게 응답하여 정적 훈련 코퍼스를 넘어 지식을 확장 할 수 있습니다. 따라서 온라인 모델은 “누가 어젯밤 게임에서 우승 한 사람”또는 “지금 가장 인기있는 영화는 무엇입니까?”와 같은 질문에 정확하게 답변 할 수 있습니다.

새로운 프롬프트 프레임 워크를 사용하여 Sutra 모델을 평가했습니다. [Vu et al., 2023]온라인 LLM을 평가하기 위해 Google에서 개발했습니다 [Press et al., 2022]Sutra-Online 모델이 경쟁 검색을 능가한다는 것을 발견했습니다

표 8 : MMLU 벤치 마크에서 세분화 된 작업에 대한 지원되는 언어의 서브 세트에서 Sutra 정량적 MMLU 결과.

표 9 : Vu et al.의 Freshness LLM 벤치 마크에 따라 유효한 전제로 신선한 (실시간 쿼리)를 처리하기위한 언어 모델의 성능 비교. [2023]

Google의 엔진 구조 모델과 OpenAi의 GPT-3.5 및 Perplexity AI. 벤치 마크에는 변경되지 않는 다양한 미묘한 온라인 시나리오를 다루는 철저한 질문이 포함되어 있으며, 그 답은 거의 변하지 않습니다. 느리게 변화하며, 대답은 일반적으로 몇 년 동안 변경됩니다. 답이 1 년 이내에 일반적으로 변경되는 빠르게 변화합니다. Sutra는 표 9에 표시된 것처럼 이러한 시나리오의 대부분을 잘 수행했습니다.

출처 참조