새로운 데이터 세트는 AI에 도전하여 유머와 풍자를 설명하고 ‘보는’및 ‘읽기’를 설명합니다.

새로운 데이터 세트는 AI에 도전하여 유머와 풍자를 설명하고 ‘보는’및 ‘읽기’를 설명합니다.

저자 :

(1) Arkadiy Saakyan, Columbia University ([email protected]);

(2) Columbia University, Shreyas Kulkarni;

(3) 컬럼비아 대학교의 가장 차크라 파티;

(4) 콜롬비아 대학교 Smaranda Muresan.

편집자 주 : 이것은 큰 AI 모델이 비 유적 언어를 얼마나 잘 처리하는지를 조사한 연구의 6 개 중 2 부입니다. 아래의 나머지를 읽으십시오.

텍스트 수입 (MacCartney and Manning, 2008; Bowman et al., 2015) 및 시각적 융합 (Xie et al., 2019) 작업은 언어 및 다중 모드 이해를 측정하기 위해 제안되었습니다. 그러나 이러한 데이터에 대한 라벨 정확도를 단순히 개선하도록 훈련 된 모델은 부서지기 쉬우 며 가짜 상관 관계로 어려움을 겪을 수 있습니다 (Poliak et al., 2018; Gururangan et al., 2018; McCoy et al., 2019; Gardner et al., 2021). E-SNLI (Camburu et al., 2018) 및 e-SNLI-VE (Kayser et al., 2021)와 같은 데이터 세트는 자연 언어 설명과 기존의 entailment 데이터 세트를 보강하여 라벨을 예측할뿐만 아니라 예측의 이유에 대한 텍스트 설명을 생성합니다. 이러한 접근법은 상식 추론 (Rajani et al., 2019; Aggarwal et al., 2021)과 사회적 규범 이해 (Chwang et al., 2023)와 같은 다양한 작업에 더 채택되었다 (Wiegreffe and Marasovic, 2021). 이 접근법은 플루트 데이터 세트를 통해 비 유적 언어 이해에 대한 LLM의 기능을 평가하기 위해 확장되었다 (Chakrabarty et al., 2022). 플루트 프레임 설명 가능한 텍스트 수입 작업으로서의 비 유적 언어 이해. 멀티 모달 모델에서의 최근의 진보 (Li et al., 2022; Alayrac et al., 2022; Openai, 2023; Team et al., 2023; Liu et al., 2023b; Anthropic, 2024)는 멀티 모달 설정으로 확장 될 때 유사한 기능을 암시하여 이미지 및 텍스트에 포함되지 않은 의미에 대한 이해를 테스트합니다. 우리는 시각적 양식에 대한 플루트 데이터 세트와 동등한 것을 제시합니다 : V- 플루트.

이전의 많은 작품들이 텍스트를 넘어 비 유적 현상을 모델링하는 데 중점을 두었습니다. Chakrabarty et al. (2023)은 인간 -AI 공동 작업 프레임 워크를 사용하여 언어 은유 (haivmet 데이터 세트)에서 시각적 은유를 생성하고 데이터 세트 품질의 외부 평가로 시각적 수입 작업을 제안합니다. 데이터 세트에는 이미지, 클레임 및 레이블이 포함되어 있지만 텍스트 설명은 없습니다. Yosef et al. (2023)은 관용구, 은유 또는 단순을 주어진 벤치 마크 (IRFL)를 제안했다. 이 데이터 세트는 텍스트 양식의 비 유적 의미에 중점을두고 텍스트 설명을 포함하지 않습니다. 또한 시끄러운 사용자 생성 텍스트와 크라우드 워크 서적 설명을 포함하는 설명과 함께 다중 모드 풍자를 이해하는 작업이있었습니다 (Desai et al., 2022). 다른 작업 라인은 멀티 모달 모델로 유머를 이해하는 데 중점을 두었습니다. Memecap (Hwang and Shwartz, 2023)은 밈을 이해하기위한 데이터 세트입니다. Hessel et al. (2023) 주석이 달린 New Yorker Caption Contest 항목의 코퍼스를 발표하여 목표가 다가올 것입니다.

표 1 : V- 플루트 데이터 세트 구성 : 5 비 유적 현상, 소스 데이터 세트 및 기여. E는 수의 수의 수, C- 모순을 나타냅니다.표 1 : V- 플루트 데이터 세트 구성 : 5 비 유적 현상, 소스 데이터 세트 및 기여. E는 수의 수의 수, C- 모순을 나타냅니다.

캡션이 유머러스 한 이유에 대한 고품질 설명과 함께 이미지에 대한 유머러스 한 캡션이 있습니다. 데이터 세트는 교육 세트에 520 개의 고유 인스턴스 만 포함 된 크기가 비교적 제한적입니다. V-Flute를 구축하기 위해 이러한 모든 벤치 마크를 활용합니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다