IT 개발자 뉴스 일반 기술 뉴스 테크노에 대한 모든 것 Wikimedia Foundation, 위키 백과 Ji-ho (지호) 4월 3, 2025 0 Comments

AI 크롤러는 Wikimedia Commons 대역폭 요구를 50% 급증해야합니다.

Wikipedia의 우산기구 인 Wikimedia Foundation은 수요일에 Wikimedia Commons의 멀티미디어 다운로드를위한 대역폭 소비가 2024 년 1 월 이후 50% 급증했다고 밝혔다.

이 복장은 화요일 블로그 게시물에 썼다.

“우리의 인프라는이자가 높은 이벤트에서 인간의 갑작스런 교통 스파이크를 유지하기 위해 구축되었지만 스크레이퍼 봇이 생성 한 트래픽의 양은 전례가 없으며 증가하는 위험과 비용을 나타냅니다.”

Wikimedia Commons는 공개 라이센스로 제공되거나 공개 도메인에있는 이미지, 비디오 및 오디오 파일의 자유롭게 액세스 할 수있는 저장소입니다.

Wikimedia는 파고 들고 가장 “비싼”트래픽의 거의 3 분의 2 (65%), 즉 소비 된 콘텐츠의 종류에서 가장 자원 집약적 인 트래픽의 거의 3 분의 2 (65%)가 봇에서 나온 것이라고 밝혔다. 그러나 전체 페이지 뷰의 35% 만이이 봇에서 나옵니다. Wikimedia에 따르면 이러한 불균형의 이유는 자주 액세스하는 컨텐츠가 캐시의 사용자와 더 가깝게 유지되기 때문에, 덜 액세스 할 수있는 다른 컨텐츠는 “핵심 데이터 센터”에 더 저장되기 때문입니다. 이것은 봇이 일반적으로 찾고있는 컨텐츠의 종류입니다.

Wikimedia는“인간 독자들은 종종 비슷한 주제에 초점을 맞추는 경향이 있지만 크롤러 봇은 더 많은 수의 페이지를 읽고 인기있는 페이지를 방문하는 경향이 있습니다. “이는 이러한 유형의 요청이 핵심 데이터 센터로 전달 될 가능성이 높아져 자원 소비 측면에서 훨씬 비싸다.”

이 모든 것보다 짧고 짧은 것은 Wikimedia Foundation의 사이트 신뢰성 팀이 일반 사용자의 혼란을 피하기 위해 크롤러를 차단하는 데 많은 시간과 자원을 소비해야한다는 것입니다. 그리고이 모든 것은 우리가 재단이 직면 한 클라우드 비용을 고려하기 전에.

사실, 이것은 열린 인터넷의 존재를 위협하는 빠르게 성장하는 트렌드의 일부를 나타냅니다. 지난 달, 소프트웨어 엔지니어이자 오픈 소스 옹호자 인 Drew Devault는 AI Crawlers가 자동 트래픽을 막기 위해 설계된 “robots.txt”파일을 무시한다는 사실을 알게되었습니다. 그리고“실용적인 엔지니어”Gergely Orosz는 지난주 Meta와 같은 회사의 AI 스크레이퍼가 자신의 프로젝트에 대한 대역폭 요구를 높였다 고 불평했습니다.

특히 오픈 소스 인프라는 발사 라인에 있지만, TechCrunch가 지난주에 쓴 것처럼 개발자들은“Cleverness and Vengeance”와 싸우고 있습니다. 일부 기술 회사는이 문제를 해결하기 위해 비트를하고 있습니다. 예를 들어 CloudFlare는 최근 AI 생성 컨텐츠를 사용하여 크롤러를 느리게하는 AI Labyrinth를 시작했습니다.

그러나 오늘날 많은 출판사들이 로그인과 페이 월 뒤의 커버를 위해 오리를 강요 할 수있는 고양이와 마우스 게임입니다.

출처 참조