확산 모델 Demystified : Dall-E 및 Midjourney의 기술 이해

저자의 이미지 | 표의 문자

생성 AI 모델은 최근 몇 년 동안 상승 스타로 등장했습니다. chatgpt. 인간이 이해할 수있는 자연 언어를 사용 하여이 모델은 입력을 처리하고 적절한 출력을 제공 할 수 있습니다. Chatgpt와 같은 제품의 결과로 다른 형태의 생성 AI도 인기 있고 주류가되었습니다.

다음과 같은 제품 에서 그리고 미드 주니 자연 언어 입력에서만 이미지를 생성하는 능력으로 인해 생성 AI 붐 속에서 인기를 얻었습니다. 이 인기있는 제품은 아무것도없는 이미지를 만들지 않습니다. 대신, 그들은 확산 모델로 알려진 모델에 의존합니다.

이 기사에서는 확산 모델을 시연하여 그 뒤에있는 기술에 대한 더 깊은 이해를 얻을 것입니다. 우리는 기본 개념, 모델 작동 방식 및 교육 방법에 대해 논의 할 것입니다.

궁금한? 들어가자.

틀 확산 모델 기초

확산 모델은 교육 데이터를 기반으로 새로운 데이터를 생성하도록 설계된 생성 모델 범주에 속하는 AI 알고리즘의 클래스입니다. 확산 모델의 경우, 이는 주어진 입력에서 새로운 이미지를 만들 수 있음을 의미합니다.

그러나 확산 모델은 평소와는 다른 프로세스를 통해 이미지를 생성하여 모델이 추가 한 다음 데이터에서 노이즈를 제거합니다. 간단한 용어로 확산 모델은 이미지를 변경 한 다음이를 최종 제품을 생성합니다. 이미지에서 노이즈를 제거하는 법을 배우기 때문에 모델을 비노 이는 모델로 생각할 수 있습니다.

공식적으로, 확산 모델은 처음으로 논문에서 나타났습니다 비평형 열역학을 사용한 깊은 감독 학습 Sohl-Dickstein et al. (2015). 이 논문은 제어 전방 확산 프로세스라는 프로세스를 사용하여 데이터를 노이즈로 변환하는 개념을 소개 한 다음 프로세스를 역전시키고 데이터를 재구성하는 모델을 교육합니다.

이 기초를 바탕으로 종이 확산 확률 모델을 비난합니다 Ho et al. (2020)은 최신 확산 프레임 워크를 소개합니다.이 프레임 워크는 고품질 이미지를 생성하고 GANS (Generative Adversarial Networks)와 같은 이전 인기있는 모델을 능가 할 수 있습니다. 일반적으로 확산 모델은 두 가지 중요한 단계로 구성됩니다.

전방 (확산) 프로세스: 임의의 정적과 구별 할 수 없을 때까지 점진적으로 노이즈를 추가하여 데이터가 손상됩니다.
반전 (Denoising) 프로세스: 신경망은 소음을 반복적으로 제거하고 완전한 무작위성에서 이미지 데이터를 재구성하는 방법을 배우도록 훈련됩니다.

확산 모델 구성 요소를 더 명확하게 이해하기 위해 더 잘 이해해 보겠습니다.

// 전진 프로세스

전방 프로세스는 첫 번째 단계이며,이 단계는 무작위 정적이 될 때까지 노이즈를 추가하여 이미지가 체계적으로 저하됩니다.

전진 프로세스는 제어되고 반복적이며 다음 단계로 요약 할 수 있습니다.

데이터 세트의 이미지로 시작하십시오
이미지에 소량의 노이즈를 추가하십시오
이 과정을 여러 번 반복하십시오 (잠재적으로 수백 또는 수천).

충분한 단계 후에 원래 이미지는 순수한 노이즈로 나타납니다.

위의 프로세스는 종종 마르코프 체인으로 수학적으로 모델링됩니다. 각 노이즈 버전은 전체 단계의 전체 단계가 아닌 바로 앞에있는 버전에 의존하기 때문입니다.

그러나 왜 이미지를 한 단계에서 똑바로 소음으로 변환하는 대신 이미지를 노이즈로 바꿔야합니까? 목표는 모델이 부패를 뒤집는 방법을 점차적으로 배울 수 있도록하는 것입니다. 작고 점진적인 단계를 통해 모델은 시끄러운 것에서 덜 Noisy 데이터로의 전환을 학습 할 수있어 순수한 노이즈에서 이미지를 단계별로 재구성하는 데 도움이됩니다.

각 단계마다 얼마나 많은 노이즈가 추가되는지를 결정하기 위해 노이즈 일정의 개념이 사용됩니다. 예를 들어, 선형 일정은 시간이 지남에 따라 꾸준히 소음을 유발하는 반면, 코사인 스케줄은 소음을 더욱 점차적으로 도입하고보다 장기간 유용한 이미지 기능을 보존합니다.

그것은 앞으로 프로세스의 빠른 요약입니다. 역 프로세스에 대해 알아 보겠습니다.

// 역 프로세스

전진 프로세스 후 다음 단계는 모델을 발전기로 전환하는 것입니다. 이는 노이즈를 다시 이미지 데이터로 다시 전환하는 법을 배웁니다. 반복적 인 작은 단계를 통해 모델은 이전에 존재하지 않은 이미지 데이터를 생성 할 수 있습니다.

일반적으로 역 프로세스는 전방 프로세스의 역수입니다.

순수한 소음으로 시작 – 가우스 소음으로 구성된 완전히 임의의 이미지
각 전진 단계의 역 버전을 근사화하려는 훈련 된 모델을 사용하여 소음을 반복적으로 제거하십시오. 각 단계에서 모델은 현재 시끄러운 이미지와 해당 타임 스텝을 입력으로 사용하여 훈련 중에 배운 내용에 따라 노이즈를 줄이는 방법을 예측합니다.
단계별로 이미지가 점차 명확 해져 최종 이미지 데이터가 생성됩니다.

이 역 프로세스에는 시끄러운 이미지를 비난하기 위해 훈련 된 모델이 필요합니다. 확산 모델은 종종 U-NET와 같은 신경망 아키텍처를 사용하는데, 이는 인코더-디코더 구조의 컨볼 루션 레이어를 결합한 자동 인코더입니다. 훈련 중에이 모델은 전진 프로세스 중에 추가 된 노이즈 구성 요소를 예측하는 법을 배웁니다. 각 단계에서 모델은 타임 스펙을 고려하여 노이즈 수준에 따라 예측을 조정할 수 있습니다.

이 모델은 일반적으로 평균 제곱 오차 (MSE)와 같은 손실 함수를 사용하여 예측 된 노이즈와 실제 노이즈의 차이를 측정합니다. 많은 예에서 이러한 손실을 최소화함으로써, 모델은 점차 확산 과정을 역전시키는 데 능숙 해집니다.

GANS와 같은 대안과 비교하여 확산 모델은 더 많은 안정성과보다 간단한 생성 경로를 제공합니다. 단계별 비난적인 접근 방식은 표현적인 학습으로 이어져 훈련을보다 신뢰할 수 있고 해석 할 수있게합니다.

모델이 완전히 훈련되면 새 이미지를 생성하는 것은 위에서 요약 한 역 프로세스를 따릅니다.

// 텍스트 컨디셔닝

Dall-E 및 Midjourney와 같은 많은 텍스트-이미지 제품 에서이 시스템은 텍스트 컨디셔닝이라고하는 텍스트 프롬프트를 사용하여 리버스 프로세스를 안내 할 수 있습니다. 자연 언어를 통합함으로써 우리는 임의의 시각적이 아닌 일치하는 장면을 얻을 수 있습니다.

이 프로세스는 미리 훈련 된 텍스트 인코더를 사용하여 작동합니다. 클립 (대비 언어-이미지 사전 훈련)텍스트 프롬프트를 벡터 임베딩으로 변환합니다. 그런 다음이 임베딩은 모델이 텍스트의 특정 부분에 초점을 맞추고 이미지 생성 프로세스를 텍스트에 맞게 정렬 할 수있는주의 메커니즘 유형 인 Cross-Intention과 같은 메커니즘을 통해 확산 모델 아키텍처에 공급됩니다. 리버스 프로세스의 각 단계에서 모델은 현재 이미지 상태와 텍스트 프롬프트를 검사하여 크로스 텐션을 사용하여 이미지를 시맨틱과 프롬프트에서 정렬합니다.

이것은 Dall-E와 Midjourney가 프롬프트에서 이미지를 생성 할 수 있도록하는 핵심 메커니즘입니다.

틀 Dall-E와 Midjourney는 어떻게 다릅니 까?

두 제품 모두 확산 모델을 기초로 사용하지만 기술 응용 분야에서 약간 다릅니다.

예를 들어, Dall-E는 텍스트 컨디셔닝을위한 클립 기반 임베딩으로 안내되는 확산 모델을 사용합니다. 대조적으로, Midjourney는 독점적 인 확산 모델 아키텍처를 특징으로하며, 여기에는 높은 현실주의에 최적화 된 미세 조정 된 이미지 디코더가 포함되어 있습니다.

두 모델은 또한 교차 적으로 의존하지만지도 스타일은 다릅니다. Dall-E는 분류기가없는 지침을 통해 프롬프트를 준수하는 것을 강조하며, 이는 무조건 및 텍스트 조건 출력 간의 균형을 유지합니다. 대조적으로, Midjourney는 문체 해석의 우선 순위를 정하는 경향이 있으며, 분류기가없는 지침을 위해 더 높은 기본 지침 척도를 사용할 수 있습니다.

Dall-E 모델은 확산 파이프 라인에 들어가기 전에 처리하여 더 긴 프롬프트를 관리 할 수 있기 때문에 Dall-E와 Midjourney는 프롬프트 길이와 복잡성을 처리하는 것이 다릅니다. Midjourney는 간결한 프롬프트로 더 잘 수행하는 경향이 있습니다.

더 많은 차이점이 있지만 확산 모델과 관련하여 알아야 할 것입니다.

틀 결론

확산 모델은 Dall-E 및 Midjourney와 같은 현대적인 텍스트-이미지 시스템의 기초가되었습니다. 전방 및 역 확산의 기본 프로세스를 활용함으로써 이러한 모델은 임의성으로부터 완전히 새로운 이미지를 생성 할 수 있습니다. 또한이 모델은 자연 언어를 사용하여 텍스트 컨디셔닝 및 교차 해당 메커니즘을 통해 결과를 안내 할 수 있습니다.

이것이 도움이 되었기를 바랍니다!

Cornellius Yudha Wijaya 데이터 과학 보조 관리자 및 데이터 작성자입니다. 그는 Allianz Indonesia에서 풀 타임으로 일하는 동안 소셜 미디어 및 작문 미디어를 통해 Python과 데이터 팁을 공유하는 것을 좋아합니다. Cornellius는 다양한 AI 및 기계 학습 주제에 대해 글을 씁니다.

출처 참조