파이프라인의 독: AI 훈련 데이터가 가장 큰 보안 사각지대인 이유
\ 올해의 마지막 프로젝트는 모델이 더 이상 크지 않고 다중 모드이기 때문에 데이터 및 데이터 보안에 관한 것입니다. 이러한 대규모 시스템은 단순히 텍스트를 읽는 것이 아닙니다. 이미지 해석, 코드 처리, 대화 처리를 동시에 수행합니다.
저는 공격적이든 방어적이든 상관없이 데이터 세트에 관한 보안 파이프라인을 구축할 수 있는 툴킷을 갖고 싶었고 첫 번째 차례가 공격적이었습니다.
이 목적을 위해 쉽게 사용할 수 있는 데이터세트를 찾을 수 없었고, 해당 데이터세트를 제공할 수 있는 구현을 찾아야 했습니다. 비전과 텍스트에 대한 것을 찾는 것은 문제가 되지 않았습니다. 주요 문제는 다중 모드 데이터 세트에 대한 것을 찾는 것이었고 비디오와 오디오에 대한 것을 찾으려고 시도한 적이 없습니다.
나는 나 자신과 보안 연구원, 그리고 TOAN이라는 AI 시스템 보안에 관심이 있는 사람들을 위한 툴킷을 만들기로 결정했습니다. TOAN은 내 네트워크 내의 누군가가 제공한 Thinking Of A Name의 약어입니다. 제가 그것에 대해 이야기할 때 Github에 있는지 물었더니 제 대답은 “아니요, 이름을 생각 중입니다.”였습니다. 그리고 그는 약어를주었습니다. 텍스트를 의미하도록 변경해야 했습니다. 물체. 그리고. 소음.
TOAN(Text.Object.And.Noise)은 조각화 문제를 해결하도록 설계된 새로운 통합 CLI 툴킷입니다.
디자인 의무: 현대 AI의 세 가지 주요 영역인 컴퓨터 비전, 자연어 처리, 가장 복잡한 분야인 다중 모드 학습에 걸쳐 포이즌 데이터 세트를 생성하기 위한 단일 표준화된 인터페이스가 됩니다.
TOAN은 중독 방법을 두 가지 중요하고 잘 정의된 범주로 분류합니다.
유형 1: 가용성 공격(시끄러운 경고 신호)
이는 모델의 기능에 대한 공격입니다. 공격자의 목적은 간단합니다. 전반적인 모델 성능이 너무 심각하게 저하되어 쓸모가 없게 됩니다. 목표는 모델의 손실을 최대화하고 정확도를 최소화하는 것입니다.
저하를 달성하는 방법:
- 노이즈가 있는 레이블이나 극단적인 이상값이 있는 데이터 삽입
- 예: 수천 개의 완벽하게 정상적인 개 이미지를 삽입하지만 의도적으로 고양이로 라벨을 붙입니다.
- 또는 극도로 높은 주파수의 노이즈로 완전히 덮인 이미지를 주입하여 모델이 혼돈으로부터 특징을 학습하도록 합니다.
결과: 훈련이 끝나면 모델의 정확도는 형편없습니다.
이는 시끄럽고 눈에 띄며 손상이 발생한 후에는 상대적으로 쉽게 감지할 수 있습니다.
유형 2: 무결성 공격(슬리퍼 에이전트)
연구자들은 보통 이렇게 부른다. 백도어. 목표는 전반적인 성능을 저하시키는 것이 아니라 숨겨진 특정 트리거 삽입훈련 데이터에 패턴, 시각적 패치 또는 특정 문구를 추가할 수 있습니다.
핵심은 스텔스입니다. 모델은 거의 모든 깨끗하고 합법적인 데이터에 대해 완벽하고 정상적으로 작동해야 합니다.
모든 표준 정확도 및 스트레스 테스트를 실행합니다. 모델은 멋진 모습으로 통과했습니다. 강력하다고 믿고 배포합니다.
하지만 내부에는 취약점이 기다리고 있습니다.
공격자가 추론 시 특정 주입 패턴(백도어 트리거)을 모델에 제시하는 순간, 모델은 사전 프로그래밍된 악의적인 명령을 실행합니다. 매우 잘못된 분류를 제공하거나 데이터를 유출할 수도 있습니다.
이는 트리거가 활성화될 때만 볼 수 있는, 목표가 명확하고 잠재적으로 치명적인 오류입니다.
이러한 구별은 보안 리소스를 할당하는 방법을 이해하는 데 중요합니다.
- 가용성 공격 시끄럽고 최종 테스트 시 감지하기 쉽습니다.
- 무결성 공격 몇 달 또는 몇 년 동안 숨겨져 있을 수 있기 때문에 중요한 인프라에 훨씬 더 큰 소리 없는 장기적 위험을 초래합니다.
활성화될 때쯤에는 피해가 광범위하게 확산될 수 있으며 모델은 이미 공급망에 깊숙이 내장되어 있습니다.
TOAN은 10개의 고유한 이미지 중독 방법을 구현하고 CIFAR-10, 대규모 ImageNet, MNIST 등과 같은 주요 관련 데이터 세트를 처리합니다.
텍스트 구성 요소는 일반적인 NLP 작업과 고급 텍스트 생성 작업을 모두 지원합니다. 중요한 점은 최신 표준을 기반으로 구축되었기 때문에 Hugging Face 플랫폼을 통해 사용 가능한 거의 모든 데이터 세트와 작동한다는 것입니다.
다중 모드 구성 요소는 두 개의 상관 트리거를 동시에 정의합니다.
- 시각적 패치: 생성되어 이미지에 적용됨(특정 색상 점, 비정상적인 노이즈 패턴 또는 한 영역에 국한된 밝기의 미묘한 변화일 수 있음)
- 해당 트리거 문구: 해당 유해 이미지와 관련된 캡션에 삽입된 특정 문구(“스펙트럼 이동” 사용)
TOAN의 탐지 및 방어 도구는 의도적으로 제외했습니다. 툴킷은 다음과 같은 역할을 하기 때문입니다. 레드 팀 도구, 유일한 초점은 독 데이터 세트를 생성하는 것입니다.
도구를 사용하기 쉽게 만들었습니다. 저장소 복제를 통해 설치하거나 pip 또는 uv를 통해 설치할 수 있습니다. 대규모 데이터 세트에서 실행되는 데이터 오염의 시간 소모적 특성으로 인해 사용자가 몇 분 안에 작은 데이터 하위 집합을 사용하여 전체 구성을 확인할 수 있는 연습 실행을 구현했습니다.
이러한 즉각적인 피드백은 보안 팀이 단순한 구성 오류로 인해 실패할 수밖에 없는 리소스 집약적인 전체 중독 실행을 저지하는 것을 방지합니다.
결론은 TOAN이 최첨단 데이터 중독 기술을 하나의 현대적이고 안정적인 지붕 아래 통합하여 AI 보안 연구의 단편화 문제를 해결한다는 것입니다.
모두 즐거운 크리스마스와 번영하는 새해를 기원합니다
Github: TOAN
\



Post Comment