인간 피드백으로부터의 강화 학습은 여행 AI 도구를 거의 완벽한 정확도로 가져갔습니다.

인간 피드백으로부터의 강화 학습은 여행 AI 도구를 거의 완벽한 정확도로 가져갔습니다.

Stefan Klopp

2022 년 후반, Chatgpt 런칭이 현재 AI Frenzy를 시작하기 직전에 개발 팀은이 모델을 실험 할 기회를 가졌습니다. 우리는 기술 회사가 될 계획이없는 여행 출판사였습니다. 그러나이 기술은 훨씬 더 효율적이고 즐거운 방식으로 여행을 계획하고 예약하는 데 사용될 수 있다는 것이 분명했습니다.

Matador Network의 Stefan KloppMatador Network의 Stefan Klopp
Matador Network의 Stefan Klopp

몇 달 안에 우리는 여행자들이 WhatsApp을 통해 메시지를 보내는 AI 도구를 시작했습니다. 정확도는 약 85%였습니다. 그것은 끔찍하게 들리지 않을 수도 있지만, 6 개의 대화 중 하나마다 오해 또는 환각이 포함 된 경우, 당신이 가진 것은 게임을 바꾸는 기술이 아닌 재미있는 가제트입니다.

여행 미디어 플랫폼 덕분에 우리는 중요한 사용자를 유치 할 수 있었으며,이를 통해 인간의 피드백으로부터 강화 학습을 통해 성능을 향상시킬 수있었습니다. 향후 15 개월 동안 우리는 정확도를 98%로 늘릴 수 있었으며, 이로 인해 주요 여행 브랜드와의 파트너십을 맺고, 상을 수상하고, 백만 명 이상의 사용자를 끌어 들일 수있었습니다. 우리가 한 방법은 다음과 같습니다.

인간의 손길

사용자가 답이 잘못되었을 때 AI를 알릴 때 도움이됩니다. 이것은 가장 간단한 강화 학습 형태입니다. 누군가가 포틀랜드의 진주 지구에서 식당 추천을 요청하고 AI에 호손 지구의 권장 사항이 포함되어 있으면 사용자는 부정확성을 지적 할 수 있습니다. 그러나 직접 사용자 피드백에 의존하는 것만으로는 충분하지 않습니다.

우리는 5 명을 고용했으며, 대부분은 여러 언어를 사용하여 강화 학습을 높은 장비에 넣었습니다. 현재까지 그들은 사용자와 AI 간의 150 만 대화를 모니터링했습니다. 이 요원들은 미묘한 잘못된 의사 소통을 포착합니다. 사용자가 멕시코 최고의 어린이 친화적 리조트의 권장 사항을 요청하면 AI는 사용자가 호텔 요금을 원한다고 생각하는 도시를 지정하도록 요청할 수 있습니다. 그러나 그들은 아직 알지 못합니다. 그들은 단지 일반 정보를 찾고 있습니다.

이 시점에서 에이전트는 수동으로 대화를 인수하고 다시 추적 할 수 있습니다. 그런 다음 에이전트는 백엔드 수정에 대한 문제를 플래그하고 분류하여 전체 질문 범주에 대한 시스템을 향상시킵니다.

질문 재구성

때로는 부정확성이 질문이 묻는 방식의 결과입니다. 결과를 향상시키기 위해서는 질문의 품질을 향상시켜야했습니다. 우리는 큰 언어 모델에 공급되기 전에 질문을 분류하고 재구성하는 시스템을 개발했습니다. 이 프로세스는 광범위한 사이트 인덱싱을 최대한 활용할 수 있습니다.

라이브 이벤트에 대한 질문은 처음에 도전에 도전했습니다. “이번 주말 콜로라도 주 에스테스 파크에서 어떤 이벤트가 진행되고 있습니까?” “이번 주말”이라는 문구가 포함 된 2 년 전의 이벤트에 관한 페이지를 찾아 환각을 유발할 수 있습니다. 그러나 사용자는 실제로 무엇을 묻는가? 질문의 타이밍은 특정 날짜로 번역되어야하며, 여기서“이번 주말”은“1 월”이됩니다. 25-26, 2025.”

또 다른 과제는 여러 메시지에서 질문을 결합하는 것입니다. 누군가 밴쿠버에서 에어 비앤비 권장 사항을 요청한 다음“Yaletown에 가까운”후속 조치를 취할 수 있습니다. 기본 질문은 새로운 요소가 추가 될 때 롤링해야합니다.

파트너를 핑하십시오

사이트 인덱싱이 필수적입니다. 심층적 인 지식과 실시간 정보를 위해서는 무대 뒤에서 핑을 할 수있는 파트너와 데이터 소스가 필요합니다. 사용자의 의도를 정확하게 식별 할 수있는 능력을 향상 시키면 비행 시간, 호텔 가격 및 환율을 위해 원하는 데이터를 얻기 위해 플러그인 네트워크가 필요했습니다.

사용자가 질문을하면 AI는이를 특정 의도로 분류하고 적절한 데이터를 공급하며 결과를 LLM에 공급하여 정보를 일관되고 일관성 있고 대화적인 언어로 전달합니다. 기준선 chatgpt보다 무대 뒤에서 더 많은 일이 일어나고 있지만 사용자 경험은 동일하며 응답은 눈에 띄게 풍부하고 정확합니다.

모든 유형의 의도에 대한 플러그인을 만드는 것은 집중적입니다. 당신이 그것을 통해 일할 때, 당신의 AI가 아직 할 수없는 일을 친근한 방식으로 사용자에게 통신하는 것이 중요합니다. AI의 응답은“아직도 그 능력이 없다”고 말하면 환각보다 더 나은 사용자 경험을 제공하며 제품을 구축하는 동안 정확성을 유지하는 좋은 방법입니다.


Stefan Klopp는 수상 경력에 빛나는 AI Travel Genius Guidegeek의 주요 여행 출판사이자 제작자 인 Matador Network의 최고 기술 책임자입니다.

일러스트레이션 : Dom Guzman

최근 자금 조달 라운드, 인수 등을 최신 상태로 유지하십시오.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다