AI 챗봇을 평가할 때 더 많은 컨텍스트가 항상 더 나은 것은 아닙니다

저자 :

(1) 네덜란드 암스테르담 암스테르담 대학교 클레멘 시아 시로;

(2) 네덜란드 암스테르담 암스테르담 대학교 모하마드 알리안네 자디;

(3) Maarten de Rijke, 암스테르담 대학교, 네덜란드 암스테르담.

링크 표

초록 및 1 소개

2 방법론 및 2.1 실험 데이터 및 작업

2.2 다양한 대화 컨텍스트의 자동 생성

2.3 크라우드 소스 실험

2.4 실험 조건

2.5 참가자

3 결과 및 분석 및 3.1 데이터 통계

3.2 RQ1 : 다양한 양의 대화 컨텍스트의 영향

3.3 RQ2 : 자동으로 생성 된 대화 컨텍스트의 효과

4 토론과 시사점

5 관련 작업

6 결론, 한계 및 윤리적 고려 사항

7 승인 및 참고 문헌

A. 부록

4 토론과 시사점

우리의 연구 결과는 TD에 대한 크라우드 소싱 관련성 및 유용성 레이블에 대한 맥락 크기와 유형의 영향에 대한 흥미로운 통찰력을 보여줍니다. 대화 컨텍스트를 C0에서 C7로 확장하면 주석자 간의 합의가 크게 향상되어 주석이 더 정확한 평가를 수행하기 위해 포괄적 인 컨텍스트에 의존 함을 나타냅니다. 이 추세는 유용성에 대한 것이 아니며, 이전의 모든 대화 컨텍스트를 사용할 수있을 때 동의가 감소하는 것을 알 수 있습니다. 신뢰할 수있는 라벨에 필요한 최적의 컨텍스트는 평가 된 측면에 의존합니다.

그림 4 : 2 단계의 3 가지 실험 설정에서 (a) 관련성 및 (b) 유용성 라벨의 일치 비율.

이전 작업과 일치하여 (Eickhoff, 2018; Kazai et al., 2011a), 우리는 다양한 시스템 응답이 제공된 컨텍스트에 따라 다르게 평가되는 변형에 대한 관련성 레이블의 불일치를 관찰합니다. 변형에 대한 라벨 일관성이 부족하여 향후 연구는 주석 작업 설계를 신중하게 조정하고 다양한 설정을 테스트하여 고품질의 일관된 레이블을 보장해야합니다. 또한, 인간과 유사한 모델이 주석 전략에 민감 할 수있는 공정한 비교를 보장하기 위해 레이블이 다른 전략으로 크라우드 소싱 할 때 여러 데이터 세트에서 시스템의 성능을 비교할 때 많은주의를 기울여야합니다 (Kadasi and Singh, 2023; Kern et al., 2023).

또한 주석 작업에 대한 경험에 대해 주석기를 묻는 개방형 질문의 데이터를 분석했습니다. 주석자는 대화 요약이 사용자의 감정을 전달하지 못하여 주석 과정을 제한한다고 지적합니다. 또한, LLM에 의해 생성 된 컨텍스트의 정확도가 낮아지면 주석기가 낮은 일치로 이어질 수 있습니다. 이는 평가 프로세스에서 생성 된 컨텐츠의 품질과 정확성을 신중하게 고려하는 것의 중요성을 나타냅니다. 우리는 부록의 섹션 A.5에 예를 제공합니다. 사용자 정보 요구 사항과 대화 맥락으로서 대화 요약을 제시하는 데 제약이있을 수 있지만, 고려해야 할 주요 고려 사항은 주석의인지 적 부하입니다. 더 짧고 집중된 맥락을 제공하면 주석기에 대한인지 부담이 줄어들어 실제로 반응을 평가하는 데 더 많은주의를 기울일 수 있습니다. 이것은 주석 과정을 간소화 할뿐만 아니라 고품질 결과를 유지하는 데 도움이됩니다. 평가 될 컨텐츠의 양을 줄이면 등급의 품질을 손상시키지 않으면 서 더 빠른 주석 시간을 초래할 수 있습니다 (Santhanam et al., 2020). 주석에 LLM을 사용하는 또 다른 접근법은 연구자들이 인간과 LLM 사이의 공동 주석 (Li et al., 2023)을 고려하는 것입니다.

최적의 맥락은 평가 하에서 측면에 따라 다르며 보편적 전략에 대한 아이디어에 도전합니다. 자동 방법의 일관된 신뢰성은 평가를위한 신뢰할 수있는 도구로서의 잠재력을 시사합니다. 이는 보충 컨텍스트를 생성하는 데 사용되는 것을 의미하며 상황 금액의 수동 결정이 필요하지 않습니다. 이는 평가를 간소화하여 TD에 대한 컨텍스트 중심 평가의 효율성을 향상시킵니다. 주제 또는 선호도 변화가없는 데이터의 경우 휴리스틱이 효과적으로 수행됩니다. 그러나 조건을 이동시키는 데 LLM이 권장되어 휴리스틱으로 쉽게 식별 할 수없는 적응성을 보여줍니다.

우리의 주요 초점은 관련성과 유용성으로 제한되었지만 제안 된 실험 설계는 TDSS 평가의 다른 측면으로 확장 될 수 있습니다. 또한, 우리의 연구 결과는 작업 또는 데이터 세트 특정 일 수 있으며, 일반화 가능성에 대한 추가 조사가 필요합니다. 향후 작업에 관해서는, 우리는 대규모 데이터 세트에 대한 연구를 수행함으로써 연구 결과의 견고성을 향상 시키려고 열망합니다. 또한 Kazai et al. (2012, 2013), 우리는 또한 주석자 배경의 효과 : 대화 시스템과의 상호 작용 경험 또는 TDS의 라벨 일관성에 대한 주석 작업을 수행하는 사전 경험을 이해하고 싶습니다.

우리는 지금까지 논문에서 다루지 않은 관련 작업을 검토합니다. 여러 사용자 중심 대화 평가 지표 (Ghazarian et al., 2019; Huang et al., 2020; Mehri and Eskenazi, 2020)가 제안되었습니다. TDS의 경우, 사용자 만족도 (Al-Maskari et al., 2007; Kiseleva et al., 2016)와 같은 높은 수준의 차원과 관련성과 흥미 론 (Siro et al., 2022)과 같은 세밀한 메트릭이 관심을 끌었습니다. Rouge (Lin, 2004), Bleu (Papineni et al., 2002)와 같은 표준 평가 메트릭의 비효율성으로 인해 인간의 판단과의 상관 관계가 좋지 않은 경우 (Deriu et al., 2021), 이러한 측정법에 대한 상당한 양의 연구는 크라우드 소싱 대화 평가 레이블에 대한 상당한 양의 연구가 실제 사용자 배율에 대한 상관 관계를 향상시킵니다. 크라우드 소싱 지상 진실 레이블은 검색 관련성 평가 (Alonso et al., 2008)와 같은 작업에 대한 정보 검색 (IR)의 추진력을 얻었으며 TDS의 사용자 만족도 측정. 주요 과제는 크라우드 소싱 레이블의 품질과 일관성을 보장하는 것입니다. 작업 설계 및 주석상의 행동 특징 및 인구 통계는 수집 된 라벨의 품질에 영향을 줄 수 있습니다 (Hube et al., 2019; Kazai et al., 2012; Pei et al., 2021). Kazai et al. (2013)은 노력과 인센티브가 관련성 판단을 할 때 평가자가 제공하는 레이블의 품질에 어떻게 영향을 미치는지 조사합니다. 판단 척도 (Novikova et al., 2018; Roitero et al., 2021), 주석자 배경 (Kazai et al., 2011b; Roitero et al., 2020) 및 주석기 인구 통계 (Difallah et al., 2018)와 같은 다른 요인들도 연구되었습니다. 대부분의 연구는 대화 시스템이 아닌 검색 시스템에 중점을 둡니다. 우리의 일에 더 가깝게 Santhanam et al. (2020) 대화 시스템의 평가에서인지 편향의 효과를 연구하십시오. 주석에 앵커를 제공하면 주석기의 등급이 앵커의 수치 값에 가깝습니다. Santhanam et al. (2020), 우리는 TDS 평가에 대한 작업 설계의 영향에 중점을 둡니다. 특히, 우리는 주석기에 제공된 대화 컨텍스트의 양과 유형이 평가 라벨의 품질과 일관성과 평가 작업 중에 주석 경험에 어떤 영향을 미치는지 조사합니다.

출처 참조