최근 AI 기술 분야에서 큰 주목을 받고 있는 Wan 2.1에 대해 알아보고, 이 모델을 로컬 환경에서 직접 사용해볼 수 있는 방법을 단계별로 안내드리겠습니다. AI로 텍스트나 이미지를 비디오로 변환하는 기술에 관심이 있다면, 이 글이 여러분에게 큰 도움이 될 거예요!
Wan 2.1이란 무엇인가요?
Wan 2.1은 알리바바 클라우드(Alibaba Cloud)가 2025년 2월 25일에 오픈소스로 공개한 최신 AI 비디오 생성 모델입니다. 이 모델은 텍스트 프롬프트나 이미지를 기반으로 고품질 비디오를 생성할 수 있는 강력한 도구로, Tongyi 시리즈의 일환으로 개발되었습니다. Wan 2.1은 특히 다음과 같은 특징으로 주목받고 있습니다:
- 뛰어난 품질: VBench 기준 84.7%라는 높은 점수를 기록하며, OpenAI의 Sora, Minimax, Kling 등과 경쟁할 만한 성능을 자랑합니다.
- 다국어 지원: 영어와 중국어를 포함한 여러 언어로 비디오 내 텍스트를 생성할 수 있는 유일한 모델입니다.
- 유연한 모델 옵션: 14B(140억 파라미터)와 1.3B(13억 파라미터) 두 가지 버전으로 제공되어, 사용자의 하드웨어 사양에 맞게 선택할 수 있습니다.
- 다양한 작업 지원: 텍스트-비디오(T2V), 이미지-비디오(I2V), 비디오-비디오(V2V) 등 다양한 생성 작업을 수행할 수 있습니다.
- 오픈소스: Apache 2.0 라이선스 하에 무료로 제공되어 누구나 자유롭게 사용하고 커스터마이징할 수 있습니다.
Wan 2.1의 핵심 기술은 Wan-VAE라는 새로운 3D 인과적 VAE(변분 오토인코더) 아키텍처에 있습니다. 이 기술은 시간적 정보를 유지하면서 무제한 길이의 1080p 비디오를 인코딩 및 디코딩할 수 있어, 기존 오픈소스 모델보다 효율성과 성능 면에서 큰 장점을 제공합니다.
Wan 2.1의 주요 활용 사례
Wan 2.1은 창작자, 개발자, 연구자 등 다양한 분야에서 활용될 수 있습니다. 예를 들어:
- 콘텐츠 크리에이터: 간단한 텍스트 설명으로 독창적인 비디오를 만들어 유튜브나 소셜 미디어에 업로드.
- 교육자: 이미지나 설명을 기반으로 학습 자료를 비디오로 변환해 시각적 이해를 도움.
- 개발자: 자체 애플리케이션에 비디오 생성 기능을 통합해 새로운 사용자 경험을 제공.
이제 이 멋진 모델을 로컬 환경에서 직접 사용해볼 수 있는 방법을 알아볼까요?
로컬에서 Wan 2.1 사용하기: 단계별 가이드
Wan 2.1을 로컬에서 실행하려면 약간의 설정이 필요하지만, 아래 단계를 따라 하면 초보자도 쉽게 시작할 수 있습니다. 이 가이드는 ComfyUI라는 사용자 친화적인 인터페이스를 활용하는 방법을 중심으로 설명합니다.
1. 시스템 요구 사항 확인
Wan 2.1을 원활히 실행하려면 하드웨어와 소프트웨어 환경이 중요합니다. 최소 및 권장 사양은 다음과 같습니다:
- 최소 사양:
- GPU: NVIDIA GTX 1080 (8GB VRAM) 또는 Apple M1
- RAM: 16GB DDR4
- 저장 공간: 15GB SSD
- 권장 사양:
- GPU: NVIDIA RTX 4090 (24GB VRAM) 또는 Apple M3 Max
- RAM: 32GB DDR5
- 저장 공간: 50GB NVMe SSD
- 소프트웨어:
- Python: 3.10~3.11 (Apple Silicon은 3.11.6 권장)
- PyTorch: 2.2 이상 (Windows/Linux는 CUDA 12.1, macOS는 Metal 지원)
- FFmpeg: 비디오 인코딩/디코딩을 위한 6.1 버전
- NVIDIA 드라이버: Studio Drivers 550 이상 (Windows/Linux)
2. ComfyUI 설치
ComfyUI는 Wan 2.1을 쉽게 실행할 수 있는 그래픽 인터페이스입니다. 설치 과정은 다음과 같습니다:
- GitHub에서 ComfyUI 다운로드:
git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI
- Python 환경 설정:
python -m venv venv source venv/bin/activate # macOS/Linux venv\Scripts\activate # Windows pip install -r requirements.txt
- 최신 버전으로 업데이트: ComfyUI가 Wan 2.1을 지원하려면 최신 버전이 필요합니다. git pull로 업데이트하세요.
3. Wan 2.1 모델 다운로드
모델 파일은 Hugging Face 또는 ModelScope에서 제공됩니다. 원하는 작업에 따라 적합한 모델을 선택하세요:
- T2V (텍스트-비디오): Wan2.1-T2V-1.3B 또는 Wan2.1-T2V-14B
- I2V (이미지-비디오): Wan2.1-I2V-14B-720P
- VAE 파일: wan_2.1_vae.safetensors
다운로드 후, 파일을 ComfyUI/models 폴더에 저장합니다.
4. 필요한 의존성 설치
다음 명령어로 필수 패키지를 설치합니다:
pip install torch torchvision
pip install "xfuser>=0.4.1"
5. ComfyUI에서 워크플로우 설정
- ComfyUI를 실행합니다:
python main.py
- 웹 브라우저에서 http://localhost:8188에 접속합니다.
- Wan 2.1 워크플로우를 불러오고, 모델 파일과 VAE 파일을 연결합니다.
- 텍스트 프롬프트(예: "두 마리 고양이가 복싱하는 장면")를 입력하거나 이미지를 업로드합니다.
- 해상도(480p 또는 720p)와 샘플 설정을 조정합니다.
6. 비디오 생성 실행
"Queue" 버튼을 클릭하거나 Ctrl+Enter를 눌러 생성을 시작합니다. GPU 성능에 따라 몇 분에서 수십 분이 걸릴 수 있습니다.
팁과 문제 해결
- 메모리 부족(OOM) 오류: --offload_model True와 --t5_cpu 플래그를 사용해 GPU 부하를 줄이세요.
- 검은 화면 출력: VAE 파일 버전이 모델과 일치하는지 확인하세요.
- 더 나은 결과: 프롬프트에 세부 사항을 추가하거나 sample_shift 8 같은 파라미터를 조정해보세요.
마무리
Wan 2.1은 오픈소스 AI 비디오 생성의 새로운 기준을 제시하는 모델입니다. 로컬에서 직접 설치하고 사용해보면서, 여러분만의 창의적인 비디오를 만들어보세요!
'일상 > IT' 카테고리의 다른 글
LLM, DLM, 그리고 DLM 기반 모델: 언어 기술의 새로운 물결 (0) | 2025.03.04 |
---|---|
삼성 XR 무한: 미래를 여는 확장 현실의 첫걸음 (0) | 2025.03.03 |
민간 달 착륙 성공, 블루 고스트: 정보와 그 의미 (0) | 2025.03.02 |
닌텐도 스위치2, 과연 언제쯤 만날 수 있을까? 최신 정보 총 정리! (0) | 2025.03.01 |
메타의 새로운 AI 챗봇 앱 : 2025년 출시 전 알아둬야 할 모든 것 (0) | 2025.03.01 |