Alibaba WAN 2.2 Animate: 캐릭터 애니메이션과 교체를 위한 차세대 AI 모델
서론
AI 영상 생성 기술의 급속한 발전과 함께, 정적 이미지에서 동적 영상을 생성하는 모델들이 점점 더 많아지고 있습니다. WAN 2.2 Animate (Wan-Animate / Wan2.2-Animate라고도 알려진)는 이 분야에서 혁신적 의미를 가진 모델 중 하나입니다. Alibaba 배경의 팀이 지원하며, "Wan" 모델 시리즈를 기반으로 캐릭터 애니메이션(animation)과 캐릭터 교체(replacement) 기능을 통합하여, 정적 인물을 "살아나게" 하고 기존 장면에 융합시키는 것을 목표로 합니다.
배경: WAN 모델과 Alibaba의 AI 영상 전략
- WAN 모델 개요: Wan(또는 Wanx라고도 함)은 Alibaba가 영상/이미지 생성 방향에서 출시한 모델 시리즈로, 고품질 영상 생성과 영상 이해 기술을 발전시키는 데 전념하고 있습니다.
- WAN 2.1 / WAN 2.x 발전: WAN 2.2는 WAN 시리즈의 중요한 업그레이드 버전으로, 영상 생성 품질, 동작 일관성, 다중 모달 융합 면에서 상당한 개선을 이루었습니다.
- Alibaba의 오픈소스 전략: Alibaba는 더 광범위한 연구 커뮤니티의 참여를 지원하기 위해 WAN 2.1의 오픈소스 버전 출시를 발표했습니다.
WAN 2.2 Animate / Wan-Animate란 무엇인가
Wan-Animate: Unified Character Animation and Replacement with Holistic Replication은 WAN 2.2 시스템의 중요한 하위 모듈로, 캐릭터 애니메이션과 캐릭터 교체 문제를 통합적으로 해결하는 것이 핵심 목표입니다.
핵심 특징
듀얼 모드 지원
- Animation 모드: 정적 캐릭터 이미지 + 참조 영상 입력으로 캐릭터가 동작과 표정을 따라 애니메이션을 생성.
- Replacement 모드: 기존 영상 내 정적 캐릭터를 자연스럽게 교체하며, 조명과 환경 일관성을 보장.
아키텍처 설계
- Wan-I2V 프레임워크 기반으로 구축.
- 스켈레톤 신호(skeleton)를 사용한 동작 구동.
- 암시적 얼굴 특징(implicit facial features)을 사용한 표정 구동.
- Relighting LoRA 모듈을 도입하여 교체 시나리오에서의 조명 융합 문제 해결.
성능 우위성
- 여러 지표(SSIM, LPIPS, FVD 등)에서 기존 오픈소스 베이스라인을 상회.
- 주관적 평가에서 더 강한 동작 일관성과 신원 안정성을 보임.
- 애니메이션과 교체를 통합하여 모델 전환 비용 절감.
제한사항과 도전
- 더 높은 추론 리소스 소모.
- 극도로 복잡한 환경에서는 여전히 동작 왜곡이나 부자연스러운 융합 문제 발생 가능.
비교와 관련 모델
- Animate Anyone / UniAnimate / VACE 등 모델과 비교하여, WAN 2.2 Animate는 동작 일관성, 얼굴 표정, 환경 융합 면에서 우위를 가집니다.
- UniAnimate-DiT와 비교하여, WAN 2.2 Animate는 동작 표현과 교체 기능에서 더 완전합니다.
- 전통적인 키포인트 기반 방법과 비교하여, WAN 2.2 Animate는 확산 모델과 Transformer 아키텍처를 활용하여 더 자연스러운 결과를 생성합니다.
사용 가이드 / 실용적 구현
온라인 사용 (권장)
더 편리한 경험을 원한다면, wan-ai.tech를 직접 방문하여 다운로드와 설치 없이 바로 원클릭 생성을 이용하세요.
로컬 실행
- 저장소를 클론하고 종속성을 설치 (PyTorch 등).
- WAN 2.2 Animate 모델 가중치 다운로드 (Animate-14B 등).
입력 준비
- 캐릭터 이미지: 초상화, 일러스트 또는 만화 캐릭터.
- 참조 영상: 동작과 표정 구동을 위한 표준 영상.
- Replacement 모드: 교체할 영상 준비 필요.
추론 플로우
- Animation 모드:
generate.py 실행 및 --task animate-14B 지정.
- Replacement 모드: Relighting LoRA와 함께
--replace_flag 사용.
- 긴 영상 생성: 시간적 연결(temporal chaining)을 통해 연속성 유지.
적용 시나리오
- 캐릭터 애니메이션: 일러스트 캐릭터, 가상 인물의 동적화.
- 영상 교체: 자연스러운 얼굴 교체, 캐릭터 교체.
- 영화/광고: 캐릭터 애니메이션 클립의 빠른 생성.
- 가상 스트리머: 실시간 애니메이션 가능한 가상 아바타 제작.
미래 전망
- 추론 가속: 메모리 및 계산 비용 절감.
- 다중 모달 확장: 오디오 구동, 텍스트 구동과의 결합.
- 고화질 장편 영상 지원: 더 높은 해상도와 더 긴 지속 시간 지원.
- 상호작용 개선: 동작, 표정, 카메라 각도의 제어 가능성 증가.
- 실시간 응용: 가상 라이브 스트리밍과 인터랙티브 시나리오에서의 응용.