IT 개발자 뉴스 일반 기술 뉴스 테크노에 대한 모든 것 당신은 총구가 있습니다, 오픈 소스, 웹 사이트 크롤러 Ji-ho (지호) 3월 29, 2025 0 Comments

오픈 소스 개발자는 영리함과 복수로 AI 크롤러와 싸우고 있습니다.

AI 웹 크롤링 봇은 인터넷의 바퀴벌레이며 많은 소프트웨어 개발자가 믿고 있습니다. 일부 개발자들은 독창적이고 종종 유머러스 한 방식으로 싸우기 시작했습니다.

모든 웹 사이트는 나쁜 크롤러 행동 (때로는 사이트를 중단하는 경우)의 대상이 될 수 있지만 오픈 소스 개발자는 “불균형 적으로”영향을받습니다. 플라즈마로 알려진 리눅스 데스크탑의 개발자 인 Niccolò Venerandi는 블로그 Librenews의 소유자입니다.

본질적으로, FOSS (Free and Open Source) 프로젝트를 호스팅하는 사이트는 공개적으로 더 많은 인프라를 공유하며 상용 제품보다 자원이 적은 경향이 있습니다.

문제는 많은 AI 봇이 로봇 제외 프로토콜 Robot.txt 파일을 존중하지 않는다는 것입니다.

1 월에 “Cry for Help”블로그 게시물에서 Foss 개발자 XE IASO는 AmazonBot이 GIT 서버 웹 사이트에서 DDOS 중단을 일으키는 시점까지 끊임없이 끊임없이 두드리는 방법을 설명했습니다. GIT 서버는 FOSS 프로젝트를 호스팅하여 원하는 사람이라면 누구나 코드를 다운로드하거나 기여할 수 있습니다.

그러나이 봇은 IASO의 Robot.txt를 무시하고 다른 IP 주소 뒤에 숨어 다른 사용자 인 척했다고 Iaso는 말했다.

Iaso는“AI 크롤러 봇이 거짓말을하고, 사용자 에이전트를 변경하고, 주거 IP 주소를 프록시로 사용하는 등을 차단하는 것은 무의미합니다.

“그들은 당신의 사이트가 넘어 질 때까지 당신의 사이트를 긁어 내고, 더 많은 것을 긁어 낼 것입니다. 그들은 모든 링크의 모든 링크의 모든 링크를 클릭하여 동일한 페이지를 반복해서 반복해서 볼 것입니다. 일부는 같은 링크를 동일한 링크를 여러 번 클릭 할 것”이라고 개발자는 게시물에 썼습니다.

그레이브스의 신에 들어가십시오

그래서 Iaso는 영리함으로 다시 싸웠고 Anubis라는 도구를 만들었습니다.

Anubis는 요청이 GIT 서버에 도달하기 전에 통과 해야하는 역 프록시 작업 증명 점검입니다. 그것은 봇을 차단하지만 인간이 운영하는 브라우저를 통해 제공합니다.

재미있는 부분 : Anubis는 이집트 신화에서 신의 이름으로 죽은자를 심판으로 인도합니다.

Iaso는 TechCrunch에“아누비스는 당신의 영혼 (마음)을 무게를 was 다. 웹 요청이 도전을 통과하고 인간으로 결정되면 귀여운 애니메이션 사진이 성공을 발표합니다. 이 그림은“의인화 된 아누 비스에 대한 나의 테이크”라고 Iaso는 말합니다. 봇이라면 요청이 거부됩니다.

화려한 이름의 프로젝트는 Foss 커뮤니티 사이의 바람처럼 퍼졌습니다. IASO는 3 월 19 일 Github에서 공유했으며 며칠 만에 2,000 개의 별, 20 명의 기고자 및 39 개의 포크를 수집했습니다.

방어로서 복수

Anubis의 즉각적인 인기는 Iaso의 고통이 독특하지 않다는 것을 보여줍니다. 사실, Venerandi는 이야기를 나눈 이야기를 공유했습니다.

Sourcehut Drew Devault의 창립자 CEO는“주당 1 주일 동안 내 시간의 20-100%에서 대규모에 해당하는 LLM 크롤러를 규모로 완화하고 일주일에 수십 개의 간단한 중단을 경험하는 것을 설명했습니다.
Linux Industry News 사이트 LWN을 운영하는 유명한 Foss 개발자 인 Jonathan Corbet은 그의 사이트가 “AI Scraper Bots에서”DDos 수준의 트래픽에 의해 속도가 느려 졌다고 경고했습니다.
거대한 Linux Fedora Project의 Sysadmin 인 Kevin Fenzi는 AI Scraper 봇이 너무 공격적이어서 브라질 전국을 접근하는 것을 막아야한다고 말했다.

Venerandi는 TechCrunch에게 동일한 문제를 겪는 여러 다른 프로젝트를 알고 있다고 말합니다. 그들 중 하나는“한 시점에서 모든 중국 IP 주소를 일시적으로 금지해야했습니다.”

Venerandi는 개발자들이 Robot.txt 파일을 무시하는 AI 봇을 막기 위해“전체 국가를 금지해야한다”고 잠시 동안 들어가게한다.

웹 요청자의 영혼을 평가하는 것 외에도 다른 개발자들은 복수가 최선의 방어라고 생각합니다.

며칠 전 Hacker News에서 사용자 Xyzal은 Robot.txt Forbidden 페이지를“표백제를 마시는 이점에 대한 기사가 많이 있습니다”또는“침대에서 홍역을 잡는 긍정적 인 효과에 대한 기사”를 제안했습니다.

Xyzal은“우리는 봇이 0 값이 아니라 트랩을 방문하여 _Negative_ 유틸리티 값을 얻기 위해 목표로해야한다고 생각합니다.

1 월에“Aaron”으로 알려진 익명의 제작자가 정확히 그렇게하는 것을 목표로하는 Nepenthes라는 도구를 발표했습니다. 그것은 가짜 콘텐츠의 끝없는 미로에 크롤러를 갇히게됩니다. 이 도구는 육식 식물의 이름을 따서 명명되었습니다.

그리고 AI 크롤러를 막기위한 몇 가지 도구를 제공하는 가장 큰 상업 플레이어 인 CloudFlare는 지난 주 AI Labyrinth라는 비슷한 도구를 발표했습니다.

CloudFlare는 블로그 게시물에 설명 된 CloudFlare에 설명 된 CloudFlare에 설명 된 “AI 크롤러 및 기타 봇의 자원을 느리게하고 혼동하고 낭비하고 낭비하기위한 것입니다. CloudFlare는 AI 크롤러가 오작동하는 것으로 “합법적 인 웹 사이트 데이터를 추출하기보다는 관련이없는 콘텐츠”를 공급한다고 말했다.

Sourcehut의 Devault는 TechCrunch에“Nepenthes는 그에 대한 만족스러운 정의 감을 가지고 있습니다. 왜냐하면 그것은 크롤러에게 말도 안되는 소리를 내고 우물을 독자하지만 궁극적으로 Anubis는 그의 사이트에서 효과가있는 해결책입니다.

그러나 Devault는 또한보다 직접적인 수정을 위해 대중적이고 진지한 탄원을 발표했습니다.“LLM 또는 AI 이미지 생성기 또는 Github Copilot 또는이 쓰레기를 합법화하지 마십시오. 나는 당신에게 사용을 중단하고, 그들에 대해 이야기를 멈추고, 그냥 멈추지 말고, 그냥 멈추십시오.”

그 가능성은 zilch이기 때문에 개발자, 특히 Foss는 영리함과 유머 감각으로 싸우고 있습니다.

출처 참조