MS Marco 웹 검색 : 차세대 정보 액세스 및 신경 인덱서 전원
링크 표
초록 및 1 소개
2 배경 및 관련 작업
2.1 웹 스케일 정보 검색
2.2 기존 데이터 세트
3ms Marco 웹 검색 데이터 세트 및 3.1 문서 준비
3.2 쿼리 선택 및 라벨링
3.3 데이터 세트 분석
3.4 MS Marco Web Search가 제기 한 새로운 도전
4 벤치 마크 결과 및 4.1 환경 설정
4.2 기준선 방법
4.3 평가 지표
4.4 임베딩 모델 평가 및 ANN 알고리즘의 4.5 평가
4.6 엔드 투 엔드 성능 평가
5 잠재적 편향 및 제한
6 미래의 작업과 결론, 참고 문헌
추상적인
대형 모델의 최근의 획기적인 혁신은 데이터 척도, 라벨 및 모달의 중요한 중요성을 강조했습니다. 이 논문에서는 수백만 건의 실제 클릭 쿼리 문서 레이블을 특징으로하는 최초의 대규모 정보가 풍부한 웹 데이터 세트 인 MS Marco Web Search를 소개합니다. 이 데이터 세트는 실제 웹 문서 및 쿼리 배포를 밀접하게 모방하며 다양한 종류의 다운 스트림 작업에 대한 풍부한 정보를 제공하며 일반적인 엔드 투 엔드 신경 인덱서 모델, 일반적인 포함 모델 및 대규모 언어 모델을 갖춘 차세대 정보 액세스 시스템과 같은 다양한 영역에 대한 연구를 장려합니다. MS Marco Web Search는 기계 학습 및 정보 검색 시스템 연구 영역에서 혁신을 요구하는 세 가지 웹 검색 챌린지 작업을 통해 검색 벤치 마크를 제공합니다. MS Marco Web Search는 크고 실제 및 풍부한 데이터 요구 사항을 충족하는 첫 번째 데이터 세트로서 AI 및 시스템 연구의 향후 발전을위한 길을 열어줍니다. MS Marco 웹 검색 데이터 세트는 다음과 같습니다.
1 소개
최근 인공 지능 분야의 획기적인 대형 언어 모델 (LLM)은 사람들이 대화식 커뮤니케이션을 통해 정보에 액세스 할 수있는 새로운 방법을 제공했습니다. 컨텐츠 제작, 의미 론적 이해 및 대화 AI와 같은 작업에 없어서는 안될 도구가되었지만 여전히 특정 한계를 나타냅니다. 그러한 한계 중 하나는 실제 정확도를 검증하기보다는 훈련 데이터에서 관찰 된 패턴에 기초한 반응을 생성하기 때문에 환각 또는 제조 된 컨텐츠를 생성하는 모델의 경향입니다. 또한, 마지막 훈련 시점까지 제공되는 정보를 제공 할 수 있기 때문에 실시간 지식 업데이트로 어려움을 겪고 있습니다. 이로 인해 최신 역동적 인 정보를 검색하는 데 신뢰성이 떨어집니다. 따라서 외부 최신 지식 기반을 큰 언어 모델과 통합하는 것이 성능과 신뢰성을 향상시키는 데 가장 중요합니다. 이 조합은 환각 및 지식 업데이트의 한계를 완화 할뿐만 아니라 다양한 도메인에서 모델의 적용 가능성을 넓히므로보다 다재다능하고 가치가 있습니다. 결과적으로 Bing 검색 엔진과 같은 정보 검색 시스템 [32]WebGpt와 같은 새로운 LLM 기반 정보 시스템에서 중요한 역할을 계속하십시오. [34] 그리고 새로운 빙 [33].
현대 정보 검색 시스템의 경우 핵심은 신경 인덱서 모델과 같은 큰 의미 론적 이해 모델입니다. [51] 또는 이중 임베딩 모델 [16, 20, 21, 38–40, 45, 46, 54]어휘 단어, 철자 오류 및 동의어 표현식에 대한 더 나은 내성으로 사용자의 의도와 문서의 풍부한 의미를 포착 할 수 있습니다. 고품질의 큰 의미 론적 이해 모델을 훈련하려면 충분한 지식 범위를 달성하기 위해서는 방대한 양의 데이터가 필요합니다. 데이터 세트가 클수록 모델이보다 복잡하고 정교한 패턴과 상관 관계를 배울 수 있으므로 모델이 더 잘 수행 될 가능성이 높습니다.
고품질의 인간 표지 된 데이터는 데이터 척도만큼 중요합니다. InstructGpt와 같은 최근 연구 [36] 그리고 llama-2 [50]대형 기초 모델을 훈련하기위한 라벨링 된 데이터의 중요한 역할을 보여주었습니다. 이 모델은 일반화 가능한 기능을 배우기 위해 대량의 교육 데이터에 의존하는 반면, 인간의 표지 된 데이터를 통해 모델은 설계된 특정 작업을 배울 수 있습니다. 이것은 또한 큰 의미 론적 이해 모델에도 적용됩니다.
또한 정보가 풍부한 데이터는 대규모 의미 론적 이해 모델을 효과적으로 훈련시키는 데 중요합니다. 멀티 모달 데이터 세트를 사용하면 모델이 다양한 유형의 데이터 간의 복잡한 관계를 이해하고 이들 간의 전송 지식을 전송할 수 있습니다. 예를 들어, 멀티 모달 데이터 세트에서 이미지와 텍스트를 사용하면 모델이 이미지 개념과 해당 텍스트 설명에 대해 학습하여 데이터의 전체적인 표현을 제공하는 데 도움이 될 수 있습니다.
새로운 크고 실제 및 풍부한 데이터 요구 사항은 수백만 개의 클릭 쿼리 용 문서 레이블을 갖춘 최초의 대규모 정보가 풍부한 웹 데이터 세트 인 새로운 MS Marco 웹 검색 데이터 세트를 생성하도록 동기를 부여합니다. MS Marco Web Search는 가장 큰 오픈 웹 문서 데이터 세트 인 Clueweb22를 통합했습니다. [37]우리의 문서 코퍼스로. Clueweb22에는 약 100 억 개의 고품질 웹 페이지가 포함되어 있으며, 대표적인 웹 스케일 데이터로 충분히 적합합니다. 또한 웹 브라우저, Raw HTML 구조, 청정 텍스트, 시맨틱 주석, 언어 및 주제 태그가 표시된 시스템 문서 이해 시스템에 의해 표시되는 웹 페이지의 풍부한 정보가 포함되어 있습니다. MS Marco Web Search에는 Micros Search Engine의 검색 로그에서 수집 된 수백만 개의 관련 쿼리-문서 쌍에서 수집 된 93 개의 언어에서 1 천만 개의 고유 한 쿼리가 포함되어 있습니다. 이 대규모 언어 정보가 풍부한 실제 웹 문서, 쿼리 및 라벨이 붙은 쿼리 문서 쌍 의이 대규모 모음은 다양한 종류의 다운 스트림 작업을 가능하게하고 이전 데이터 세트가 예를 들어 일반적인 엔드 투 엔드 신경 인덱서 모델, 일반적인 엔드 투 엔드 신경 인덱서 모델, 일반적인 데이터 액세스 시스템, 및 미래의 Web DataSet 등의 대형 데이터에 대한 차세대 정보 시스템을 갖춘 차세대 정보 액세스 시스템을 갖춘 몇 가지 새로운 연구 방향을 장려합니다. AI 및 시스템 연구.
MS Marco Web Search는 기존 데이터 세트에서 원래 개발 된 여러 최첨단 임베딩 모델, 검색 알고리즘 및 검색 시스템을 구현하는 검색 벤치 마크를 제공합니다. 우리는 웹 스케일 정보 검색의 벤치 마크 기준으로 새로운 MS Marco Web Search 데이터 세트에서 결과의 품질과 시스템 성능을 비교합니다. 실험 결과는 모델, 검색 알고리즘 및 검색 시스템 임베딩이 웹에서 모두 중요한 구성 요소임을 보여줍니다.
정보 검색. 흥미롭게도 단순히 하나의 구성 요소 만 개선하면 엔드 투 엔드 검색 결과 품질 및 시스템 성능에 부정적인 영향을 줄 수 있습니다. 이 검색 벤치 마크가 데이터 중심 기술, 모델 임베딩, 검색 알고리즘 및 검색 시스템의 미래 혁신을 촉진하여 엔드 투 엔드 성능을 극대화 할 수 있기를 바랍니다.
저자 :
(1) Qi Chen, 중국 마이크로 소프트 베이징;
(2) Xiubo Geng, 중국 마이크로 소프트 베이징;
(3) Corby Rosset, Microsoft, Redmond, 미국;
(4) Carolyn Buractaon, Microsoft, Redmond, 미국;
(5) Jingwen Lu, Microsoft, Redmond, 미국;
(6) Tao Shen, Technology University Sydney, Sydney, Australia의 작업은 Microsoft에서 수행되었습니다.
(7) Kun Zhou, Microsoft, Beijing, China;
(8) Carnegie Mellon University, Carnegie Mellon University, Pittsburgh, United States의 Chenyan Xiong과 Microsoft에서 작업이 이루어졌습니다.
(9) Yeyun Gong, Microsoft, Beijing, China;
(10) Paul Bennett, Spotify, New York, 미국 및 작업은 Microsoft에서 수행되었습니다.
(11) Nick Craswell, Microsoft, Redmond, 미국;
(12) Xing Xie, Microsoft, Beijing, China;
(13) Fan Yang, Microsoft, Beijing, China;
(14) Bryan Tower, Microsoft, Redmond, 미국;
(15) Nikhil Rao, Microsoft, Mountain View, 미국;
(16) Anlei Dong, Microsoft, Mountain View, 미국;
(17) Wenqi Jiang, Eth 취리히, 취리히, 스위스;
(18) Zheng Liu, Microsoft, Beijing, China;
(19) Mingqin Li, Microsoft, Redmond, 미국;
(20) Chuanjie Liu, Microsoft, Beijing, China;
(21) Zengzhong Li, Microsoft, Redmond, 미국;
(22) Rangan Majumder, Microsoft, Redmond, 미국;
(23) Jennifer Neville, Microsoft, Redmond, 미국;
(24) Andy Oakley, Microsoft, Redmond, 미국;
(25) Knut Magne Risvik, Microsoft, Oslo, Norway;
(26) Harsha Vardhan Simhadri, Microsoft, Bengaluru, India;
(27) Varma Manik, Microsoft, Bengaluru, India;
(28) Yujing Wang, Microsoft, Beijing, China;
(29) Linjun Yang, Microsoft, Redmond, 미국;
(30) Mao Yang, Microsoft, Beijing, China;
(31) CE Zhang, ETH Zürich, Zürich, 스위스 및 작업은 Microsoft에서 이루어졌습니다.
Post Comment