AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 6월 16, 2025 0 Comments

차이 브리징 : 새로운 데이터 세트는 권장 사항 연구를 실제 규모로 푸시합니다.

스폰서 콘텐츠

새로운 데이터 세트는 추천 연구를 추진합니다

추천 시스템은 데이터에 의존하지만 진정한 대표적인 데이터에 대한 액세스는 오랫동안 연구원에게는 어려운 과제였습니다. 대부분의 학업 데이터 세트는 실제 환경에서 사용자 상호 작용의 복잡성과 양에 비해 창백하며, 개인 정보 보호 문제와 상업적 가치로 인해 데이터가 일반적으로 고정됩니다.
그것이 바뀌기 시작했습니다.

최근 몇 년 동안 음악, 전자 상거래, 광고 및 그 너머에 걸쳐 실제 사용 패턴을 더 잘 반영하는 것을 목표로하는 몇 가지 새로운 데이터 세트가 공개되었습니다. 최근의 주목할만한 릴리스 중 하나는 YANDEX가 기여한 50 억 이벤트 데이터 세트 인 YAMBDA-5B이며, 음악 스트리밍 서비스의 데이터를 기반으로 Hugging Face를 통해 사용할 수 있습니다. YAMBDA는 3 가지 크기 (50m, 500m, 5b)로 제공되며 접근성과 유용성을 강조하기위한 기준선을 포함합니다. 추천 시스템의 연구 간 격차를 폐쇄하는 데 도움이되는 자원 목록에 합류했습니다.

아래는 현재 필드를 형성하는 주요 데이터 세트에 대한 간단한 조사입니다.

산업 규모의 연구를 향해 나아가고 있습니다

이러한 각 데이터 세트는 분야를 형성하는 데 도움이되었지만 규모, 데이터 신선도, 사용자 다양성 또는 메타 데이터 완전성과 같은 한계를 모두 제시합니다. Yambda-5B와 같은 새로운 항목이 특히 유망한 곳입니다.

이 데이터 세트는 타임 스탬프, 피드백 유형 (명시 적 대 함유) 및 권장 컨텍스트 (유기농 대 제안)와 같은 메타 데이터를 포함하여 음악 스트리밍 세션에서 익명으로 대규모 대규모 사용자 항목 상호 작용 데이터를 제공합니다. 중요하게도, 여기에는 글로벌 시간적 분할이 포함되어있어 온라인 시스템 배포를 반영하는보다 현실적인 모델 평가가 가능합니다. 연구원들은 또한 데이터 세트의 멀티 모달 특성에서 770 만 개가 넘는 트랙에 대한 사전 계산 된 오디오 임베딩을 포함하여 컨텐츠 인식 추천 전략을 상자에 포함시킬 수 있습니다.

데이터 세트의 설계에서 개인 정보가 신중하게 고려되었습니다. Netflix Prize 데이터 세트와 같은 이전 예제와 달리 재 식별 위험으로 인해 철회되었습니다. yambda 데이터 세트의 데이터는 사용자 및 추적 데이터가 익명화되어 숫자 식별자를 사용하여 개인 정보 보호 표준을 충족합니다.

루프 폐쇄 : 이론에서 생산으로

추천 연구가 규모에 따라 실제 응용 프로그램으로 이동함에 따라 강력하고 다양하며 윤리적으로 공급되는 데이터 세트에 대한 액세스가 필수적입니다. Movielens 및 Netflix Prize와 같은 리소스는 벤치마킹 및 테스트 아이디어를위한 기본적으로 유지됩니다. 그러나 Amazon ‘s, Criteo’s 및 Yambda와 같은 최신 데이터 세트는 학문적 참신함에서 실제 유틸리티로 모델을 밀기 위해 필요한 규모와 뉘앙스를 제공합니다.

AI 및 ML에 대해 진지한 9 만 명 이상의 전문가를위한 뉴스 레터 인 Turing Post의 원본 기사를 읽으십시오.

Avi Chawla- 직관에 대한 데이터 과학 문제에 접근하고 설명하는 것에 대해 매우 열정적입니다. AVI는 학계 및 산업 전반에 걸쳐 6 년 이상 데이터 과학 및 기계 학습 분야에서 일해 왔습니다.

출처 참조