AI와 데이터 과학 뉴스 정보 Seo-jun (서준) 10월 28, 2025 0 Comments

상위 5개 오픈 소스 비디오 생성 모델

작성자별 이미지

# 조명, 카메라…

출시와 함께 알겠어요 그리고 소라비디오 세대가 새로운 최고점에 도달했습니다. 제작자는 광범위하게 실험하고 있으며 팀은 이러한 도구를 마케팅 워크플로에 통합하고 있습니다. 그러나 단점이 있습니다. 대부분의 폐쇄형 시스템은 데이터를 수집하고 출력에 AI 생성 라벨을 지정하는 눈에 보이거나 보이지 않는 워터마크를 적용합니다. 개인 정보 보호, 제어 및 기기 내 워크플로를 중요하게 생각한다면 오픈 소스 모델이 최선의 선택이며 현재 여러 모델이 Veo의 결과와 경쟁하고 있습니다.

이 기사에서는 상위 5개 비디오 생성 모델을 검토하고 비디오 생성 기능을 평가하는 데 도움이 되는 기술 지식과 데모 비디오를 제공합니다. 모든 모델은 다음에서 사용할 수 있습니다. 포옹하는 얼굴 다음을 통해 로컬로 실행할 수 있습니다. 컴퓨이 또는 선호하는 데스크톱 AI 애플리케이션.

# 1. 완 2.2 A14B

완 2.2 시간 단계에 걸쳐 잡음 제거를 전문 전문가로 분할하는 MoE(Mixture-of-Experts) 아키텍처로 확산 백본을 업그레이드하여 컴퓨팅 페널티 없이 유효 용량을 늘립니다. 또한 팀은 미학적 라벨(예: 조명, 구도, 대비, 색상 톤)을 선별하여 “영화적” 모양을 더욱 제어하기 쉽게 만들었습니다. Wan 2.1에 비해 훈련 규모가 크게 확장되어(이미지 +65.6%, 비디오 +83.2%) 모션, 의미 체계 및 미학이 향상되었습니다.

Wan 2.2는 개방형 시스템과 폐쇄형 시스템 모두에서 최고 수준의 성능을 보고합니다. Hugging Face: Wan-AI/Wan2.2-T2V-A14B 및 Wan-AI/Wan2.2-I2V-A14B에서 텍스트-비디오 및 이미지-비디오 A14B 저장소를 탐색할 수 있습니다.

# 2. 훈위안 영상

훈위안비디오 인과적 3D 변형 자동 인코더(VAE)를 통해 시공간 잠재 공간에서 훈련된 13B 매개변수 개방형 비디오 기반 모델입니다. 변환기는 “이중 스트림에서 단일 스트림으로” 설계를 사용합니다. 텍스트와 비디오 토큰은 먼저 완전한 주의를 기울여 독립적으로 처리된 다음 융합되는 반면, 디코더 전용 다중 모달 LLM은 명령 따르기 및 세부 캡처를 개선하기 위한 텍스트 인코더 역할을 합니다.

오픈 소스 생태계에는 코드, 가중치, 단일 및 다중 GPU 추론(xDiT), FP8 가중치, 디퓨저 및 ComfyUI 통합, 세워짐 데모 및 Penguin Video 벤치마크.

# 3. 떡 1

떡 1개 Apache 2.0에서 출시된 처음부터 훈련된 10B AsymmDiT(Asymmetric Diffusion Transformer)입니다. 이는 공간적으로 8×8, 시간적으로 6x 비디오를 12채널 잠재성으로 압축하는 비대칭 VAE와 결합되어 단일 T5-XXL 인코더를 사용하면서 텍스트보다 시각적 용량을 우선시합니다.

예비 평가에서 Genmo 팀은 Mochi 1을 고정밀 모션과 강력하고 신속한 준수를 갖춘 최첨단 개방형 모델로 지정하여 폐쇄형 시스템과의 격차를 줄이는 것을 목표로 합니다.

# 4. LTX 비디오

LTX-비디오 속도를 위해 제작된 DiT 기반(확산 변환기) 이미지-비디오 생성기입니다. 실시간보다 빠르게 1216×704에서 30fps 비디오를 생성하고 동작과 시각적 품질의 균형을 맞추기 위해 크고 다양한 데이터 세트를 훈련했습니다.

라인업에는 13B 개발, 13B 증류, 2B 증류 및 FP8 양자화 빌드와 공간 및 시간 업스케일러, 즉시 사용 가능한 ComfyUI 워크플로 등 다양한 변형이 포함됩니다. 단일 이미지 또는 짧은 컨디셔닝 시퀀스에서 빠른 반복과 선명한 모션을 최적화하려는 경우 LTX가 탁월한 선택입니다.

# 5. CogVideoX-5B

CogVideoX-5B 2B 기준에 대한 충실도가 높은 형제이며 bfloat16에서 훈련되었으며 bfloat16에서 실행하도록 권장됩니다. 고정 720×480 해상도로 8fps에서 6초 클립을 생성하고 최대 226개 토큰의 영어 프롬프트를 지원합니다.

모델 문서에는 단일 및 다중 GPU 추론을 위한 예상되는 VRAM(비디오 랜덤 액세스 메모리), 일반적인 런타임(예: 단일 H100에서 50단계에 대해 약 90초), CPU 오프로드 및 VAE 타일링/슬라이싱과 같은 디퓨저 최적화가 메모리와 속도에 미치는 영향을 보여줍니다.

https://www.youtube.com/watch?v=S2b7QGv-lo

# 비디오 생성 모델 선택

다음은 귀하의 요구 사항에 적합한 비디오 생성 모델을 선택하는 데 도움이 되는 몇 가지 고급 정보입니다.

단일 4090에서 영화 친화적인 외관과 720p/24를 원하는 경우: Wan 2.2(핵심 작업용 A14B, 효율적인 720p/24용 5B 하이브리드 TI2V)
강력한 모션과 완전한 오픈 소스 소프트웨어(OSS) 툴체인을 갖춘 대형 범용 T2V/I2V 기반이 필요한 경우: HunyuanVideo(13B, xDiT 병렬성, FP8 가중치, Diffusers/ComfyUI)
현대적인 모션과 명확한 연구 로드맵을 갖춘 허용적이고 해킹 가능한 SOTA(최신 기술) 미리 보기를 원하는 경우: Mochi 1(10B AsymmDiT + AsymmVAE, Apache 2.0)
업스케일러 및 ComfyUI 워크플로우를 통한 실시간 I2V 및 편집 가능성에 관심이 있는 경우: LTX-비디오(1216×704에서 30fps, 여러 13B/2B 및 FP8 변형)
효율적인 6s 720×480 T2V, 견고한 디퓨저 지원 및 작은 VRAM까지 양자화가 필요한 경우: CogVideoX-5B

아비드 알리 아완 (@1abidaliawan)은 기계 학습 모델 구축을 좋아하는 공인 데이터 과학자 전문가입니다. 현재 그는 콘텐츠 제작에 집중하고 있으며 기계 학습 및 데이터 과학 기술에 대한 기술 블로그를 작성하고 있습니다. Abid는 기술 관리 석사 학위와 통신 공학 학사 학위를 보유하고 있습니다. 그의 비전은 정신 질환으로 어려움을 겪고 있는 학생들을 위해 그래프 신경망을 사용하여 AI 제품을 구축하는 것입니다.

출처 참조