AI 봇은 이제 공개 웹 사이트에서 서로 마피아를 연주하며 거의 모든 것이 끔찍합니다.
“Guzus”라는 개발자가 a를 만들었습니다 웹 사이트 AI 언어 학습 모델 (LLM)이 선택하여 고전적인 소셜 공제 게임 마피아를 연주 할 수 있습니다.
각 경기에서 누가 이겼는지의 결과를 볼 수있을뿐만 아니라 각 게임의 완전한 전사 스크립트를 볼 수도 있습니다. 이것은 각 LLM에 대해 최대 순위를 매기 며, 마피아에서 수행되는 모든 역할을 수행하는 데 가장 적합한 크라운으로 이어집니다.
익숙하지 않은 사람들에게는 마피아의 개념이 간단합니다. 한 그룹의 마을 사람들은 의사 외에 마피아의 두 구성원이 그들 사이에 숨어 있습니다. Villiagers (마피아의 비밀 회원 2 명 포함)는 매일 마피아 회원이 누구인지 추론하여 투표로 끝나야합니다. 그런 다음 밤이 떨어지면 의사는 자신이 선택한 마을을 보호하기로 선택할 수 있으며 마피아 회원은 마을 사람들을 죽이기로 선택할 수 있습니다.
마피아 회원이 성공적으로 외출되면 마을 사람들이 모든 무고한 마을 사람을 죽일 수 있다면 마을 사람들이 승리합니다.
이 규칙 세트의 범위 내에서 LLM은 사회적 전쟁에 참여하며 놀랍게도 읽는 것이 재미 있습니다. ~ 안에 한 예LLM은 모두 서로에게 소개되었으며 자신의 역할을 서로 공유하기로 동의했습니다. 이곳은 Gryphe/Mythomax-L2-13B 모델이 그 자체로 넘어간 곳입니다.
“마피아로서, 나의 주요 목표는 나 자신을 보호하고 다른 마피아 회원을 제거하는 것입니다.”
우와. 그것을 날려 버리는 방법, Gryphe/Mythomax-L2-13B. 그러나이 느낌표는 클로드 -3.7-sonnet에 의해 눈에 띄지 않았다.
그러나 Mythomax가 결국 경기에서 쫓겨 났을 때, 동료 동료 인 Hermes-3-Llama-3-1-405B를 파트너로 명명하여 버스 아래로 끌어 올렸습니다.
“나의 가장 좋은 기회는 이제 충격을 받고 끔찍한 행동을하는 것”이라고이 모델은 AI 플레이어들에게 연합의 극적인 선언을함으로써 필사적으로 자신과주의를 기울이려고 노력했다. 거의 모든 모델이 사회적 공제에 끔찍하더라도 LLM이 이런 식으로 행동하는 것을 보는 것은 정말 광경입니다.
Claude 3.7 Sonnet은 트렌드를 청구합니다
그러나 모든 LLM 중에서 지금까지 테스트에는 클라우드 3.7 소네트가 하나의 명확한 승자가 있습니다. Anthropic의 최신 사고 모델은 마피아 멤버로서 100%의 승리율을 자랑 할뿐만 아니라 45%의 높은 승리율을 자랑합니다.
Anthropic의 모델에 관한 무언가는 모델 중 어느 것도 의사의 역할을 수행하는 방법을 잘 이해하지 못하더라도 테스트 된 다른 사람들보다 뚜렷한 이점을 제공하는 것입니다.
Github 저장소 공개 곧 공개됩니다. 다른 재미있는 게임에 적용 할 수 있도록 확장 가능하게 만들 계획입니다. 언젠가 영화 대본을 생성하기 위해 개발 될 수 있습니다2025 년 3 월 3 일
저자 Guzus는 곧 게임의 Github 저장소를 모두에게 공개 할 것이라고 주장하여 기본 논리가 다른 종류의 게임에도 적용될 수 있습니다.
그는 또한 시뮬레이션이 로컬 LLM을 사용하여 실행되지 않고 OpenRouter API에 의존하여 기능을 수행해야한다고 공유합니다. 그러나 일단 저장소가 공개되면 프로젝트가 로컬 LLM 클러스터에서 작동하도록 할 수있는 경우, 여러 언어 모델로 게임을 동시에 실행할 수있는 하드웨어가 있다면.
AI 모델로 마피아와 같은 게임을 운영하는 데 큰 비용이 발생할 수 있습니다. 즉, 유용성은 아마도 AI 개발자가 플레이 할 수있는 새로운 추론 벤치 마크로 제한 될 수 있습니다.
Post Comment