MS Marco 웹 검색 : 차세대 정보 액세스 및 신경 인덱서 전원

링크 표

초록 및 1 소개

2 배경 및 관련 작업

2.1 웹 스케일 정보 검색

2.2 기존 데이터 세트

3ms Marco 웹 검색 데이터 세트 및 3.1 문서 준비

3.2 쿼리 선택 및 라벨링

3.3 데이터 세트 분석

3.4 MS Marco Web Search가 제기 한 새로운 도전

4 벤치 마크 결과 및 4.1 환경 설정

4.2 기준선 방법

4.3 평가 지표

4.4 임베딩 모델 평가 및 ANN 알고리즘의 4.5 평가

4.6 엔드 투 엔드 성능 평가

5 잠재적 편향 및 제한

6 미래의 작업과 결론, 참고 문헌

추상적인

대형 모델의 최근의 획기적인 혁신은 데이터 척도, 라벨 및 모달의 중요한 중요성을 강조했습니다. 이 논문에서는 수백만 건의 실제 클릭 쿼리 문서 레이블을 특징으로하는 최초의 대규모 정보가 풍부한 웹 데이터 세트 인 MS Marco Web Search를 소개합니다. 이 데이터 세트는 실제 웹 문서 및 쿼리 배포를 밀접하게 모방하며 다양한 종류의 다운 스트림 작업에 대한 풍부한 정보를 제공하며 일반적인 엔드 투 엔드 신경 인덱서 모델, 일반적인 포함 모델 및 대규모 언어 모델을 갖춘 차세대 정보 액세스 시스템과 같은 다양한 영역에 대한 연구를 장려합니다. MS Marco Web Search는 기계 학습 및 정보 검색 시스템 연구 영역에서 혁신을 요구하는 세 가지 웹 검색 챌린지 작업을 통해 검색 벤치 마크를 제공합니다. MS Marco Web Search는 크고 실제 및 풍부한 데이터 요구 사항을 충족하는 첫 번째 데이터 세트로서 AI 및 시스템 연구의 향후 발전을위한 길을 열어줍니다. MS Marco 웹 검색 데이터 세트는 다음과 같습니다.

1 소개

최근 인공 지능 분야의 획기적인 대형 언어 모델 (LLM)은 사람들이 대화식 커뮤니케이션을 통해 정보에 액세스 할 수있는 새로운 방법을 제공했습니다. 컨텐츠 제작, 의미 론적 이해 및 대화 AI와 같은 작업에 없어서는 안될 도구가되었지만 여전히 특정 한계를 나타냅니다. 그러한 한계 중 하나는 실제 정확도를 검증하기보다는 훈련 데이터에서 관찰 된 패턴에 기초한 반응을 생성하기 때문에 환각 또는 제조 된 컨텐츠를 생성하는 모델의 경향입니다. 또한, 마지막 훈련 시점까지 제공되는 정보를 제공 할 수 있기 때문에 실시간 지식 업데이트로 어려움을 겪고 있습니다. 이로 인해 최신 역동적 인 정보를 검색하는 데 신뢰성이 떨어집니다. 따라서 외부 최신 지식 기반을 큰 언어 모델과 통합하는 것이 성능과 신뢰성을 향상시키는 데 가장 중요합니다. 이 조합은 환각 및 지식 업데이트의 한계를 완화 할뿐만 아니라 다양한 도메인에서 모델의 적용 가능성을 넓히므로보다 다재다능하고 가치가 있습니다. 결과적으로 Bing 검색 엔진과 같은 정보 검색 시스템 [32]WebGpt와 같은 새로운 LLM 기반 정보 시스템에서 중요한 역할을 계속하십시오. [34] 그리고 새로운 빙 [33].

현대 정보 검색 시스템의 경우 핵심은 신경 인덱서 모델과 같은 큰 의미 론적 이해 모델입니다. [51] 또는 이중 임베딩 모델 [16, 20, 21, 38–40, 45, 46, 54]어휘 단어, 철자 오류 및 동의어 표현식에 대한 더 나은 내성으로 사용자의 의도와 문서의 풍부한 의미를 포착 할 수 있습니다. 고품질의 큰 의미 론적 이해 모델을 훈련하려면 충분한 지식 범위를 달성하기 위해서는 방대한 양의 데이터가 필요합니다. 데이터 세트가 클수록 모델이보다 복잡하고 정교한 패턴과 상관 관계를 배울 수 있으므로 모델이 더 잘 수행 될 가능성이 높습니다.

고품질의 인간 표지 된 데이터는 데이터 척도만큼 중요합니다. InstructGpt와 같은 최근 연구 [36] 그리고 llama-2 [50]대형 기초 모델을 훈련하기위한 라벨링 된 데이터의 중요한 역할을 보여주었습니다. 이 모델은 일반화 가능한 기능을 배우기 위해 대량의 교육 데이터에 의존하는 반면, 인간의 표지 된 데이터를 통해 모델은 설계된 특정 작업을 배울 수 있습니다. 이것은 또한 큰 의미 론적 이해 모델에도 적용됩니다.

또한 정보가 풍부한 데이터는 대규모 의미 론적 이해 모델을 효과적으로 훈련시키는 데 중요합니다. 멀티 모달 데이터 세트를 사용하면 모델이 다양한 유형의 데이터 간의 복잡한 관계를 이해하고 이들 간의 전송 지식을 전송할 수 있습니다. 예를 들어, 멀티 모달 데이터 세트에서 이미지와 텍스트를 사용하면 모델이 이미지 개념과 해당 텍스트 설명에 대해 학습하여 데이터의 전체적인 표현을 제공하는 데 도움이 될 수 있습니다.

새로운 크고 실제 및 풍부한 데이터 요구 사항은 수백만 개의 클릭 쿼리 용 문서 레이블을 갖춘 최초의 대규모 정보가 풍부한 웹 데이터 세트 인 새로운 MS Marco 웹 검색 데이터 세트를 생성하도록 동기를 부여합니다. MS Marco Web Search는 가장 큰 오픈 웹 문서 데이터 세트 인 Clueweb22를 통합했습니다. [37]우리의 문서 코퍼스로. Clueweb22에는 약 100 억 개의 고품질 웹 페이지가 포함되어 있으며, 대표적인 웹 스케일 데이터로 충분히 적합합니다. 또한 웹 브라우저, Raw HTML 구조, 청정 텍스트, 시맨틱 주석, 언어 및 주제 태그가 표시된 시스템 문서 이해 시스템에 의해 표시되는 웹 페이지의 풍부한 정보가 포함되어 있습니다. MS Marco Web Search에는 Micros Search Engine의 검색 로그에서 수집 된 수백만 개의 관련 쿼리-문서 쌍에서 수집 된 93 개의 언어에서 1 천만 개의 고유 한 쿼리가 포함되어 있습니다. 이 대규모 언어 정보가 풍부한 실제 웹 문서, 쿼리 및 라벨이 붙은 쿼리 문서 쌍 의이 대규모 모음은 다양한 종류의 다운 스트림 작업을 가능하게하고 이전 데이터 세트가 예를 들어 일반적인 엔드 투 엔드 신경 인덱서 모델, 일반적인 엔드 투 엔드 신경 인덱서 모델, 일반적인 데이터 액세스 시스템, 및 미래의 Web DataSet 등의 대형 데이터에 대한 차세대 정보 시스템을 갖춘 차세대 정보 액세스 시스템을 갖춘 몇 가지 새로운 연구 방향을 장려합니다. AI 및 시스템 연구.

MS Marco Web Search는 기존 데이터 세트에서 원래 개발 된 여러 최첨단 임베딩 모델, 검색 알고리즘 및 검색 시스템을 구현하는 검색 벤치 마크를 제공합니다. 우리는 웹 스케일 정보 검색의 벤치 마크 기준으로 새로운 MS Marco Web Search 데이터 세트에서 결과의 품질과 시스템 성능을 비교합니다. 실험 결과는 모델, 검색 알고리즘 및 검색 시스템 임베딩이 웹에서 모두 중요한 구성 요소임을 보여줍니다.

표 1 : MS Marco 웹 검색 (Clueweb22) 및 기존 데이터 세트 비교

정보 검색. 흥미롭게도 단순히 하나의 구성 요소 만 개선하면 엔드 투 엔드 검색 결과 품질 및 시스템 성능에 부정적인 영향을 줄 수 있습니다. 이 검색 벤치 마크가 데이터 중심 기술, 모델 임베딩, 검색 알고리즘 및 검색 시스템의 미래 혁신을 촉진하여 엔드 투 엔드 성능을 극대화 할 수 있기를 바랍니다.

저자 :

(1) Qi Chen, 중국 마이크로 소프트 베이징;

(2) Xiubo Geng, 중국 마이크로 소프트 베이징;

(3) Corby Rosset, Microsoft, Redmond, 미국;

(4) Carolyn Buractaon, Microsoft, Redmond, 미국;

(5) Jingwen Lu, Microsoft, Redmond, 미국;

(6) Tao Shen, Technology University Sydney, Sydney, Australia의 작업은 Microsoft에서 수행되었습니다.

(7) Kun Zhou, Microsoft, Beijing, China;

(8) Carnegie Mellon University, Carnegie Mellon University, Pittsburgh, United States의 Chenyan Xiong과 Microsoft에서 작업이 이루어졌습니다.

(9) Yeyun Gong, Microsoft, Beijing, China;

(10) Paul Bennett, Spotify, New York, 미국 및 작업은 Microsoft에서 수행되었습니다.

(11) Nick Craswell, Microsoft, Redmond, 미국;

(12) Xing Xie, Microsoft, Beijing, China;

(13) Fan Yang, Microsoft, Beijing, China;

(14) Bryan Tower, Microsoft, Redmond, 미국;

(15) Nikhil Rao, Microsoft, Mountain View, 미국;

(16) Anlei Dong, Microsoft, Mountain View, 미국;

(17) Wenqi Jiang, Eth 취리히, 취리히, 스위스;

(18) Zheng Liu, Microsoft, Beijing, China;

(19) Mingqin Li, Microsoft, Redmond, 미국;

(20) Chuanjie Liu, Microsoft, Beijing, China;

(21) Zengzhong Li, Microsoft, Redmond, 미국;

(22) Rangan Majumder, Microsoft, Redmond, 미국;

(23) Jennifer Neville, Microsoft, Redmond, 미국;

(24) Andy Oakley, Microsoft, Redmond, 미국;

(25) Knut Magne Risvik, Microsoft, Oslo, Norway;

(26) Harsha Vardhan Simhadri, Microsoft, Bengaluru, India;

(27) Varma Manik, Microsoft, Bengaluru, India;

(28) Yujing Wang, Microsoft, Beijing, China;

(29) Linjun Yang, Microsoft, Redmond, 미국;

(30) Mao Yang, Microsoft, Beijing, China;

(31) CE Zhang, ETH Zürich, Zürich, 스위스 및 작업은 Microsoft에서 이루어졌습니다.

출처 참조

최신 기술 뉴스 정보 모두

MS Marco 웹 검색 : 차세대 정보 액세스 및 신경 인덱서 전원

링크 표

추상적인

1 소개

Post Comment 응답 취소

당신은 놓쳤을 수도 있습니다

거래: Litheli Eclair 1000 발전소에는 보조 배터리가 있습니다!

대만의 에너지 미래: 원자력인가, 재생에너지인가?

Razer Phantom White 컬렉션 출시 — Basilisk V3 Pro 35K 마우스, BlackWidow V4 75% 키보드를 포함한 반투명 게임 주변기기

Casio는 Back to the Future 계산기 시계를 위해 80년대로 거슬러 올라갑니다.

ByteDance가 중국에서 가장 인기 있는 AI 챗봇을 만든 방법

Apple, 새로운 M5 칩으로 iPad Pro, MacBook Pro 및 Vision Pro 업그레이드

현재 일부 사용자의 경우 YouTube가 다운되었습니다.

물리적 킬 스위치가 있는 999달러짜리 Google 제거 기기

이제 윈도우 10이 끝났네요

Mint Mobile은 5G 홈 인터넷 서비스를 출시합니다. 415Mbps MINTernet 요금제는 무제한 데이터를 월 30달러부터 시작합니다.

링크 표

추상적인

1 소개

Related Posts

Post Comment 응답 취소

당신은 놓쳤을 수도 있습니다