AI를 가르치는 “I Con Mone”이라고 말하기 : 상황 데이터 대치에 대한 4 단계 안내서

AI를 가르치는 “I Con Mone”이라고 말하기 : 상황 데이터 대치에 대한 4 단계 안내서

저자 :

(1) 네브래스카-링컨 대학교 전기 및 컴퓨터 공학과 Ahatsham Hayat ([email protected]);

(2) 네브래스카-링컨 대학교 전기 및 컴퓨터 공학과 Mohammad Rashedul Hasan (Mohammad Rashedul Hasan) ([email protected]).

초록 및 1 소개

2 방법

2.1 문제 제형 및 2.2 결측 패턴

2.3 결 측값 생성

2.4 클레임 설명

3 실험

3.1 결과

4 관련 작업

5 결론과 미래 방향

6 제한 및 참조

2 방법

2.1 문제 공식

2.2 실종 패턴

우리는 누락 된 데이터 메커니즘을 주어진 x의 조건부 분포로 나타내며, 이는 다음과 같이 알려지지 않은 ϕ에 의해 매개 변수화된다.

문헌에서 누락 데이터에 대한 다음 세 가지 표준 메커니즘이 정의됩니다. [21].

무작위로 완전히 누락되었습니다 (MCAR). MCAR 사례는 변수의 값이 누락 될 확률이 변수 자체 및 다음과 같이 표현 된 다른 변수와 무관 할 때 발생합니다.

MCAR에서 누락 확률은 누락 변수 나 관측 변수에 의존하지 않습니다.

무작위로 누락 (3 월). 변수의 값이 누락 될 확률은 다른 변수 XO의 관찰 된 값에만 의존합니다. 따라서 결측은 누락 된 변수와 무관하며 결 측값은 다음과 같이 공식화 된 관찰 된 변수로부터 예측할 수 있습니다.

무작위로 없음 (mnar). 이 사례는 MCAR이나 Mar가 아닌 누락 된 메커니즘에 해당합니다. MNAR에서는 값이 누락 된 이유는 다른 변수뿐만 아니라 누락 된 값에 따라 다를 수 있습니다.

Mar와 달리 MNAR의 누락은 관찰 된 변수에서만 예측할 수 없습니다. MNAR 누락 데이터를 올바르게 처리하는 일반적인 방법은 없습니다. [14].

종종 누락 된 데이터의 원인은 MCAR 또는 MAR로 인해 누락이 무시되므로 대치 방법을 단순화 할 수 있습니다. [33]. 이러한 이유로, 대부분의 연구는 누락 된 데이터가 MAR 또는 MCAR 유형 인 경우를 다룹니다.

2.3 결 측값 생성

MCAR, MAR 및 MNAR (MCAR, MAR 및 MNAR)에 다음 세 가지 결측 메커니즘을 적용하여 최대 30% 결 측값의 합성 데이터 세트를 구성했습니다. 이러한 메커니즘의 구현은 수정됩니다 [20].

McAre. 각 기능에서 관측치의 30%를 무작위로 제거하여 도입되었습니다.

3 월. 먼저, 독립적 인 기능 (일반적으로 데이터 세트의 첫 번째 열)의 30 번째 백분위 수 범위 내에서 모든 관측치를 선택합니다. 그런 다음 각 대응 (종속) 기능에서 60% 관찰을 무작위로 제거합니다.

mnar. 관측치가 기능 값의 30 번째 백분위 수 범위에 속하는 경우 기능의 관찰을 제거합니다.

2.4 클레임 설명

그림 1은 4 단계를 포함하는 클레임 ​​프로세스를 보여줍니다. (1) 상황에 맞는 자연 언어 데이터 세트 구성, (2) 적합한 설명자 생성

그림 1 : 청구 개요.그림 1 : 청구 개요.

결 측값, (3) 결측 인식 맥락화 된 데이터 세트 생성 및 (4) 다운 스트림 작업에 LLM을 조정합니다. 아래 단계를 자세히 설명합니다.

상황에 맞는 자연 언어 데이터 세트 구성. 결 측값이 포함 된 숫자 데이터 세트 X에서 상황에 맞는 자연 언어 데이터 세트를 구성합니다. 목표는 각 속성에 대한 문맥 상 적합한 설명과 자연어로의 측정을 생성하는 것입니다. 예를 들어 UCI 와인 데이터 세트의 레코드 [12] 숫자 입력 및 출력 속성을 사용하면 다음과 같이 컨텍스트로 표시됩니다. “와인의 알코올 함량은 12.47입니다. 와인의 말산 수준은 1.52입니다. 와인의 클래스는 클래스 1 와인으로 분류됩니다.”[1] 이 단계는 숫자 값을 자세한 설명으로 변환하여 결 측값 설명자를 포함시키기위한 데이터 세트를 준비합니다.

결 측값에 적합한 설명자를 생성합니다. 수치 방법을 사용하여 관찰 된 데이터의 결 측값을 추정하는 기존의 대치 방법과 달리, 우리는 문맥 상 관련 값의 문맥과 관련된 설명자를 활용합니다. 우리는 대화식 LLM (예 : OpenAi의 ChatGpt-3.5에 의해이 설명자를 생성합니다. [2]). LLM에 데이터 세트 설명을 제출하고 다음과 같은 결 측값 설명자를 생성하도록 지시합니다. “누락 된 속성 값의 경우, 해당 셀에 배치 할 수있는 누락 된 데이터에 대한 설명자를 제안하십시오.” 이 방법은 LLM의 광범위한 지식 기반에 의존하여 적절한 결 측값 설명자를 생성합니다. 선택된 데이터 세트에 대한 기능 별 상황에 따라 관련성이있는 누락 된 값 설명자 목록이 부록에 제공됩니다.

실종자 인식 맥락화 된 데이터 세트 생성. 결 측값을 생성 된 설명자로 바꾸어 실종자 인식 상황에 맞는 자연 언어 데이터 세트 Xmissingness_aware를 구성합니다. 이 프로세스는 각 데이터 인스턴스가 누락 된 속성을 인식하여 명시적인 컨텍스트를 제공하여 불완전한 데이터로부터 LLM의 학습 능력을 향상시킬 수 있도록합니다. 또한 결 측값이 포함 된 데이터 세트의 별도의 기능에 대해 별도의 설명자를 사용하여 다운 스트림 작업의 성능을 향상시키기 위해 맥락 적으로 적합한 방식으로 각 기능의 누락을 처리하도록 LLM에 암시 적으로 알려줍니다.

다운 스트림 작업을 해결하기위한 LLM에 적응합니다. 마지막 단계는 실종자 인식, 상황에 맞는 데이터 세트와 함께 미리 훈련 된 LLM을 미세 조정하는 것입니다. 우리는 누락 데이터를 미세 조정 프로세스에 처리하기위한 특정 작업 지침 및 전략을 통합합니다. 예를 들어, 분류 작업의 경우 다음과 같은 지침이 포함될 수 있습니다. “주어진 측정 값을 기반으로 클래스를 예측하십시오. 결 측값 설명자가 제공 한 컨텍스트를 사용하여 예측을 알리십시오.”

데이터 세트 변환에서 미세 조정 LLM에 이르기 까지이 구조화 된 접근법은 LLM의 기능을 통해 데이터 누락을 해결하기위한 포괄적 인 방법을 나타냅니다.

이 백서는 CC에 따라 ARXIV에서 4.0 Deed (Advribution 4.0 International) 라이센스에 의해 구할 수 있습니다.

[1] 상황화에 사용되는 파이썬 스크립트는 보충 자료에 제공됩니다.

출처 참조

Post Comment

당신은 놓쳤을 수도 있습니다