새로운 AI 코딩 챌린지가 방금 첫 번째 결과를 발표했으며 예쁘지 않습니다.
새로운 AI 코딩 챌린지가 첫 우승자를 공개하고 AI 기반 소프트웨어 엔지니어를위한 새로운 바를 설정했습니다.
수요일 오후 5시 PT에 비영리 단체 Laude Institute는 Databricks와 Perplexity 공동 설립자 Andy Konwinski가 시작한 다중 라운드 AI 코딩 챌린지 인 K Prize의 첫 우승자를 발표했습니다. 우승자는 에두아르도 로차 데 안드라드 (Eduardo Rocha de Andrade)라는 브라질 프롬프트 엔지니어로, 상금으로 5 만 달러를 받게 될 것입니다. 그러나 승리보다 더 놀라운 것은 그의 최종 점수였습니다. 그는 시험에서 질문의 7.5%에 대한 정답으로 이겼습니다.
Konwinski는“실제로 어려운 벤치 마크를 구축하게되어 기쁩니다. 그는“벤치 마크는 문제가 될 경우 어려워 야합니다.”그는 다음과 같이 덧붙였다.“큰 실험실이 가장 큰 모델로 입력 한 경우 점수는 다를 것입니다. 그러나 그것은 일종의 요점입니다. K상은 제한된 컴퓨팅으로 오프라인으로 실행되므로 작고 개방형 모델을 선호합니다. 나는 그것을 좋아합니다.
Konwinski는 테스트에서 90%보다 높은 점수를 얻을 수있는 최초의 오픈 소스 모델에 백만 달러를 약속했습니다.
잘 알려진 SWE-Bench 시스템과 마찬가지로 K상은 모델이 실제 프로그래밍 문제를 얼마나 잘 처리 할 수 있는지에 대한 테스트로 GitHub의 플래그가 큰 문제에 대한 모델을 테스트합니다. 그러나 SWE-Bench는 모델이 훈련 할 수있는 고정 된 문제 세트를 기반으로하지만, K상은 타임 마크-특이 적 교육을 방지하기 위해 시간이 정해진 입력 시스템을 사용하여 “오염없는 버전의 SWE-Bench 버전”으로 설계되었습니다. 1 라운드의 경우, 모델은 3 월 12 일까지 마감되었습니다. K 상 주최자는 그 날짜 이후에 Github 문제 만 사용하여 테스트를 구축했습니다.
7.5% 상위 점수는 SWE-Bench 자체와 현저한 대비로 나타납니다. 이는 현재 쉬운 “검증 된”테스트에서 75% 상위 점수를, “전체”테스트에서 34%를 보여줍니다. Konwinski는 여전히 불균형이 SWE-Bench의 오염으로 인한 것인지 또는 GitHub에서 새로운 문제를 수집 해야하는 도전인지 확실하지 않지만 K 상 프로젝트가 곧 질문에 답변 할 것으로 기대합니다.
“우리가 더 많은 일을 할 때, 우리는 더 나은 의미가 있습니다.”라고 그는 TechCrunch에 말했습니다.“사람들이 몇 달마다 경쟁의 역학에 적응할 것으로 기대하기 때문입니다.
TechCrunch 이벤트
샌프란시스코
|
2025 년 10 월 27-29 일
이미 공개적으로 사용할 수있는 광범위한 AI 코딩 도구를 감안할 때 부족한 곳처럼 보일지 모르지만 벤치 마크가 너무 쉬워지면서 많은 비평가들은 K 상과 같은 프로젝트를 AI의 평가 문제를 해결하는 데 필요한 단계로보고 있습니다.
프린스턴의 연구원 인 Sayash Kapoor는 최근 논문에서 비슷한 아이디어를 제시 한“기존 벤치 마크에 대한 새로운 테스트를 구축하는 것에 대해 매우 낙관적입니다. “그러한 실험이 없다면, 우리는 문제가 오염인지, 심지어 루프에서 인간과 SWE-Bench 리더 보드를 목표로하는지 실제로 알 수 없습니다.”
Konwinski에게는 더 나은 벤치 마크가 아니라 업계의 다른 지역에 대한 공개 도전입니다. “과대 광고를 듣는다면 AI 의사와 AI 변호사와 AI 소프트웨어 엔지니어를 만나야하는 것과 같습니다.”라고 그는 말합니다. “오염이없는 SWE 벤치에서 10% 이상을 얻을 수 없다면 그것이 저에게 현실 점검입니다.”
Post Comment