Cambridge Spin-Out Trismik은 AI 평가를 재정의하기 위해 220 만 파운드를 모금합니다
Cambridge University 스핀 아웃 Trismik은이 문제를 해결하기 위해 220 만 파운드의 사전 시드 라운드로 스텔스에서 나왔으며 인간 IQ 테스트에서 빌린 과학적 접근 방식으로 그렇게하고 있습니다.
MMLU 및 GSM8K와 같은 전통적인 벤치 마크가 포화 될 때, 많은 주요 모델이 90 % 이상 점수를 받고 있습니다. Trismik은 AI 기능을 측정하는 방법을 다시 생각하고 있습니다.
이 팀은 항목 응답 이론과 전산화 된 적응성 테스트 (심리 측정법)를 LLM 평가에 적용하고 있습니다. 그들은 모델이 실제로 할 수있는 일에 대한 더 빠르고 확장 가능한 통찰력을 가능하게한다고 주장합니다.
Cambridge와 Trismik의 최고 과학 책임자 NLP 연구원 인 Nigel Collier 교수에 따르면 AI를 신뢰하려면 우리의 방법은 우리의 아이디어만큼 엄격해야합니다.
“벤치 마크 포화는 일반적인 지식, 추론, 수학 및 코딩에 이르기까지 모든 영역에서 문제를 일으키는 것입니다.
과학자, 연구원 및 기술 팀은 평가가 중요 해지고 AI를 신뢰에 묶는 데 필수적 이어지면서 압력을 가하고 있습니다.
Trismik의 플랫폼은 인간의 적성이 인텔리전스를 추정하기 위해 질문 세트를 조정하는 방법과 유사한 모델 응답을 기반으로 실시간의 평가 어려움을 조정합니다. 이 기술을 통해 시스템은 질문의 일부로 거의 동일성 정확도 순위를 전달할 수 있습니다.
초기 결과는 유망한 효율성을 시사합니다. 적응성 테스트는 기존 평가 순위와 0.96 이상의 Spearman 상관 관계와 일치하는 반면, 8.5 %의 테스트 항목이 필요합니다. 이 회사에 따르면, 이는 평가 비용을 최대 95 %까지 줄일 수 있습니다. 이는 모델을 평가하기 위해 GPU 컴퓨팅에 매달 6 개의 수치를 지출하는 팀의 주요 인센티브입니다.
이 과학적 접근은 콜리어 교수의 수십 년간의 연구에 뿌리를두고 있습니다. Collier는 NLP와 AI에 200 개가 넘는 논문을 출판 한 후 AI 시스템이 측정 가능하고 설명 가능하며 궁극적으로 신뢰할 수 있도록 초점을 바꿨습니다. Enterprise AI Sales에 대한 경험을 가진 반복 창립자 인 Rebekka Mikkola와의 협력은 2023 년 영국 주요 통신처와의 캠브리지 엔터프라이즈 지원 설계 파트너십을 통해 시작되었습니다. 이 팀은 나중에 전 Amazon 과학자이자 TEDX 스피커 인 Marco Basaldella와 CTO로 합류했습니다.
EU AI Act에서 부문 별 규정 준수 체제에 이르기까지 새로운 규제 프레임 워크가있어 정확하고 투명한 평가에 대한 수요가 강화되고 있습니다. 동시에, AI 개발주기는 가속화되어 팀이 더 빠르게 배송하도록 압력을가하면서 모델이 안전하고 정렬되며 효과적인지 확인합니다. 일반 벤치 마크는 이러한 요구에 미치지 못하고 있습니다.
Trismik에 따르면, 그들은 독점 데이터 분포와 도메인 별 작업을 반영하지 않습니다. 더 나쁜 것은, 전통적인 평가는 정적이며 모델이 목표를 발전 시키거나 변화함에 따라 시간이 지남에 따라 적응할 수있는 방법을 제공하지 않습니다. 이 자금 조달 라운드는 TwinPath Ventures가 주도했으며 Cambridge Enterprise Ventures, Parkwalk Advisors, Fund F, Vento Ventures 및 Angel Network Ventures의 지원을 받았습니다. 에이
“AI 평가 시장은 변곡점에 있습니다. 우리가 말하는 모든 AI 팀은 평가 오버 헤드에서 익사하고 있으며, 팀이 더 빠르고 자신있게 운송하는 것을 방지하는 숨겨진 병목 현상이되었습니다.
“Trismik의 접근 방식은이 문제를 해결하기 위해 완전히 다른 영역에서 입증 된 과학적 방법을 적용하기 때문에 강력합니다.
실제로 측정 시간을 두 배로 줄이는 동시에 실제로 측정 시간을 증가시킬 수 있으면 AI 개발주기에서 가능한 내용을 근본적으로 변경합니다.”
Trismik은 이제 AI Builders에게 LLM 평가 플랫폼을 출시하기 시작합니다. 이 제품은 현재 사실, 정렬, 추론, 안전 및 도메인 지식과 관련된 데이터 세트에서 고전 및 적응 형 테스트를 지원하여 빠른 실험을위한 가벼운 인터페이스를 제공합니다.
이 회사는 미세 조정, 신속한 엔지니어링, 컴플라이언스 추적 및 성능 시각화를 통합하는 LLM 실험을위한 광범위한 환경으로 발전하는 플랫폼을 상상합니다.
케임브리지 엔터프라이즈 (Cambridge Enterprise)의 벤처 인 크리스틴 마틴 (Christine Martin) 박사는“트리 미크 (Trismik)는 캠브리지의 글로벌 AI 개발에 대한 지속적인 기여를 보여 주며, 팀은 세계적 수준의 학업 자격 증명과 실용적인 산업 경험을 결합하여 AI 기능을 측정하는 방법을 정의 할 수있는 독특한 권한을 부여했다.
“Trismik은 AI 채택에서 중추적 인 도전을 해결함으로써 규모에 따라 신뢰를 주도 할 수 있습니다. 우리는 시장으로의 여정을 지원하게되어 기쁩니다.”
이 자본은 Trismik의 적응 형 AI 평가 플랫폼을 시작하는 데 사용됩니다. 이는 느리고 비싼 벤치마킹을 빠르고 통계적으로 정확한 평가로 대체하는 것을 목표로합니다.
Trismik 플랫폼에 대한 조기 액세스는 웹 사이트를 통해 제공되며 적응 형 테스트 기능은 7 개 모델과 5 개의 벤치 마크 데이터 세트에서 이미 검증되었습니다. 이 팀은 올해 말에 추가 기술 결과 및 사례 연구를 게시 할 계획입니다. 엔터프라이즈 사용자는 2025 년 말에 2025 년 초에 출시 될 것으로 예상되는 전체 엔터프라이즈 솔루션과 함께 2025 년 말까지 온보드를 시작할 것입니다.



Post Comment