차이 브리징 : 새로운 데이터 세트는 권장 사항 연구를 실제 규모로 푸시합니다.
스폰서 콘텐츠
추천 시스템은 데이터에 의존하지만 진정한 대표적인 데이터에 대한 액세스는 오랫동안 연구원에게는 어려운 과제였습니다. 대부분의 학업 데이터 세트는 실제 환경에서 사용자 상호 작용의 복잡성과 양에 비해 창백하며, 개인 정보 보호 문제와 상업적 가치로 인해 데이터가 일반적으로 고정됩니다.
그것이 바뀌기 시작했습니다.
최근 몇 년 동안 음악, 전자 상거래, 광고 및 그 너머에 걸쳐 실제 사용 패턴을 더 잘 반영하는 것을 목표로하는 몇 가지 새로운 데이터 세트가 공개되었습니다. 최근의 주목할만한 릴리스 중 하나는 YANDEX가 기여한 50 억 이벤트 데이터 세트 인 YAMBDA-5B이며, 음악 스트리밍 서비스의 데이터를 기반으로 Hugging Face를 통해 사용할 수 있습니다. YAMBDA는 3 가지 크기 (50m, 500m, 5b)로 제공되며 접근성과 유용성을 강조하기위한 기준선을 포함합니다. 추천 시스템의 연구 간 격차를 폐쇄하는 데 도움이되는 자원 목록에 합류했습니다.
아래는 현재 필드를 형성하는 주요 데이터 세트에 대한 간단한 조사입니다.
추천 연구에서 공개적으로 사용 가능한 데이터 세트를 살펴보십시오
Movielens
가장 초기 및 가장 널리 사용되는 데이터 세트 중 하나입니다. 여기에는 사용자가 제공 한 영화 등급 (1-5 별)이 포함되어 있지만 규모와 다양성이 제한되어 있습니다. 초기 프로토 타이핑에는 비슷하지만 오늘날의 동적 컨텐츠 플랫폼을 대표하지는 않습니다.
Netflix 상
추천 히스토리 (~ 100m 등급)의 획기적인 데이터 세트. 정적 스냅 샷과 자세한 메타 데이터 부족은 현대 적용 가능성을 제한합니다.
Yelp Open 데이터 세트
8.6m 리뷰가 포함되어 있지만 적용 범위는 드물고 도시별로 다릅니다. 지역 비즈니스 연구에는 유용하지만 대규모 일반화 가능한 모델에는 최적이 아닙니다.
Spotify Million Playlist
Recsys 2018 용으로 출시 된이 데이터 세트는 단기 및 순차적 청취 동작을 분석하는 데 도움이됩니다. 그러나 장기적인 역사와 명백한 피드백이 부족합니다.
크리 테오 1TB
산업 규모의 상호 작용을 보여주는 대규모 광고 클릭 데이터 세트. 볼륨은 인상적이지만 최소한의 메타 데이터를 제공하고 추천 논리보다 CTR (Click-Strough Rate)을 우선시합니다.
아마존 리뷰
컨텐츠가 풍부하고 감정 분석 및 긴 꼬리 권장 사항에 널리 사용됩니다. 그러나 대부분의 사용자와 제품에 대한 상호 작용이 급격히 떨어지면서 데이터는 악명 높게 드문 드문 일입니다.
last.fm (LFM-1B)
이전에는 음악 추천을 받기위한 것입니다. 라이센스 제한은 이후 최신 버전의 데이터 세트에 대한 액세스가 제한되었습니다.
산업 규모의 연구를 향해 나아가고 있습니다
이러한 각 데이터 세트는 분야를 형성하는 데 도움이되었지만 규모, 데이터 신선도, 사용자 다양성 또는 메타 데이터 완전성과 같은 한계를 모두 제시합니다. Yambda-5B와 같은 새로운 항목이 특히 유망한 곳입니다.
이 데이터 세트는 타임 스탬프, 피드백 유형 (명시 적 대 함유) 및 권장 컨텍스트 (유기농 대 제안)와 같은 메타 데이터를 포함하여 음악 스트리밍 세션에서 익명으로 대규모 대규모 사용자 항목 상호 작용 데이터를 제공합니다. 중요하게도, 여기에는 글로벌 시간적 분할이 포함되어있어 온라인 시스템 배포를 반영하는보다 현실적인 모델 평가가 가능합니다. 연구원들은 또한 데이터 세트의 멀티 모달 특성에서 770 만 개가 넘는 트랙에 대한 사전 계산 된 오디오 임베딩을 포함하여 컨텐츠 인식 추천 전략을 상자에 포함시킬 수 있습니다.
데이터 세트의 설계에서 개인 정보가 신중하게 고려되었습니다. Netflix Prize 데이터 세트와 같은 이전 예제와 달리 재 식별 위험으로 인해 철회되었습니다. yambda 데이터 세트의 데이터는 사용자 및 추적 데이터가 익명화되어 숫자 식별자를 사용하여 개인 정보 보호 표준을 충족합니다.
루프 폐쇄 : 이론에서 생산으로
추천 연구가 규모에 따라 실제 응용 프로그램으로 이동함에 따라 강력하고 다양하며 윤리적으로 공급되는 데이터 세트에 대한 액세스가 필수적입니다. Movielens 및 Netflix Prize와 같은 리소스는 벤치마킹 및 테스트 아이디어를위한 기본적으로 유지됩니다. 그러나 Amazon ‘s, Criteo’s 및 Yambda와 같은 최신 데이터 세트는 학문적 참신함에서 실제 유틸리티로 모델을 밀기 위해 필요한 규모와 뉘앙스를 제공합니다.
AI 및 ML에 대해 진지한 9 만 명 이상의 전문가를위한 뉴스 레터 인 Turing Post의 원본 기사를 읽으십시오.
Avi Chawla- 직관에 대한 데이터 과학 문제에 접근하고 설명하는 것에 대해 매우 열정적입니다. AVI는 학계 및 산업 전반에 걸쳐 6 년 이상 데이터 과학 및 기계 학습 분야에서 일해 왔습니다.
Post Comment