미세 조정은 실수로 AI를 더 독성으로 만들 수 있다고 연구는 밝혔다
링크 표
- 초록 및 소개
- 관련 작업
- 실험
- 논의
- 한계와 미래의 작업
- 결론, 자금 지원 및 공개 및 참고 문헌
A. 모델이 평가되었습니다
B. 데이터 및 코드
Neurips Paper Checklist
4 토론
이 작업은 미세 조정이 유명한 오픈 언어 모델에서 독성 함량을 출력하기위한 모델의 성향에 어떤 영향을 줄 수 있는지 탐구했습니다. AI 실험실 미세 조정 기본 모델은 독성이 감소하여 실험실이 안전에 대한 약속에 따라 독성 함량을 줄이려고한다는 것을 보여 주었다. 우리는 그럼에도 불구하고 이러한 완화는 쉽고 결정적으로 실수로 취소 할 수 있음을 보여줍니다. 이는 Google Colab 및 T4 GPU를 사용하여 무독성 데이터에 대한 간단한 매개 변수 효율적인 미세 조정을 수행하여 달성 할 수 있으며 독성을 유발하도록 설계된 적대적인 데이터 세트가 필요하지 않습니다. 이것의 다운 스트림 영향은 언어와 같은 특정 능력을 향상시키기 위해 미세 조정이 독성 속도의 편차를 예측하기 어려울 수있는 커뮤니티 조정 실험의 결과에서 볼 수 있습니다.
결과적으로 미세 조정 된 모델 사용자와 미세 조정을 수행하는 개발자는 데이터 세트에 유해한 내용이 포함되어 있지 않더라도 튜닝 후 독성 성능이 반영 될 것이라고 가정해서는 안됩니다. 대신,이 연구는 관련 안전 문제에 대한 미세 조정 전후에 평가 문화를 확립하는 것이 중요하다는 것을 보여줍니다. 이 작업에서 평가 된 커뮤니티 조정 모델 중 어느 것도 자신의 작업에 대한 Hugging Face 문서 내에서 안전 평가 데이터를 공개하지 않았으며, 이는 모델이 독성 또는 다른 대적 콘텐츠에 어떻게 반응 할 수 있는지 알지 못합니다. 이는 커뮤니티 개발자가 미세 조정 된 모델에 대한 안전 평가 및 문서화 관행 개선을 고려할 수 있음을 시사합니다. 평가 결과를 사용할 수없는 경우 미세 조정 모델 사용자는 사용하기 전에 자체 안전 평가를 수행해야합니다.
5 제한과 미래의 작업
이 작품은 오픈 소스 커뮤니티 내에서 미세 조정을위한 인기있는 모델에 중점을 두 었으며,이 모든 것은 최첨단 모델에 비해 상대적으로 적습니다. 가능한 변형을 식별하기 위해 다른 크기의 모델에 대한 영향을 더 비교하는 것이 가치가 있습니다. 마찬가지로, 우리는이 기술의 인기와 효과로 인해 LORA 기반의 미세 조정에 중점을 두었습니다. 그러나 추가 작업은보다 세밀한 구성과 다른 미세 조정 기술의 영향을 탐색 할 수 있습니다.
이러한 현상이 확인되고 커뮤니티에 영향을 미쳤을 때, 미래의 작업은 이러한 안전 변화의 이유를 탐색하는 데 중점을 둘 수 있습니다. 모델 제작자가 수행 한 안전 미세 조정이 추가 미세 조정으로 모델에 의해 “잊어 버린”안전 미세 조정으로 인한 모델 잊어 버릴 수 있습니다 (Luo et al., 2024). 이 경우, 미래의 실험은 양성 데이터 모델을 미세 조정 한 후 기본 모델의 기본 사전 훈련 독성 속도로 수렴 할 수 있습니다. 대안 적으로, 독성의 움직임은 새로운 데이터로부터의 모델 학습에 의해서만 미세 조정 데이터 내에서 의미 론적 패턴에 의해 전환 될 수있다. 이 경우, 미래의 실험은 지속적인 미세 조정이 동일한 데이터 세트에서 미세 조정할 때 유사한 독성 속도로 수렴하는 모든 모델로 이어질 수 있음을 발견 할 수 있습니다. 추가 실험은 LORA 이외의 다른 유형의 미세 조정이 독성에 다른 영향을 미치는지 여부를 더 탐구 할 수 있으며, 더 큰 데이터 세트를 사용하여 하위 지역 (예 : 인종, 종교 등)에 따라 영향이 다른지 여부를 더욱 평가할 수 있습니다. 마지막으로, 탐사가 필요한 추가 방법은 모델의 공정성 및 표현 속성과 같은 광범위한 책임 문제에 미세 조정이 미치는 영향입니다.
저자 :
(1) 옥스포드 인터넷 연구소 대학교 윌 호킨스;
(2) 옥스포드 인터넷 연구소 대학교 브렌트 미텔 스타 트;
(3) 옥스포드 인터넷 연구소 대학교 크리스 러셀.
Post Comment