ComfyUI와 Wan 2.1으로 이미지에서 동영상 만드는 가이드

일상/IT.과학

ComfyUI와 Wan 2.1으로 이미지에서 동영상 만드는 가이드

TFTC 2025. 3. 6. 12:55

오늘은 AI 기술을 활용해 이미지를 동영상으로 변환하는 멋진 방법을 소개하려고 합니다. 바로 ComfyUI와 Wan 2.1 모델을 사용하는 방법인데요. 이 가이드를 따라 하시면 여러분의 사진을 생동감 있는 영상으로 바꿀 수 있습니다. 초보자도 쉽게 따라 할 수 있도록 하나씩 차근차근 설명드릴게요. 그럼 시작해 볼까요?

1. ComfyUI와 Wan 2.1이 뭐길래?

먼저 기본 개념부터 짚고 넘어가겠습니다.

ComfyUI는 Stable Diffusion 기반의 노드 인터페이스로, AI 작업을 시각적으로 구성할 수 있는 도구입니다. 직관적인 워크플로우 덕분에 복잡한 설정을 쉽게 조정할 수 있어요.
Wan 2.1은 알리바바에서 2025년 2월에 오픈소스로 공개한 최신 비디오 생성 모델입니다. 텍스트-to-비디오(T2V), 이미지-to-비디오(I2V) 등 다양한 작업을 지원하며, 특히 1.3B 모델은 8GB VRAM만으로도 실행 가능해 접근성이 뛰어납니다.

이 두 가지를 결합하면, 일반 PC에서도 고품질 동영상을 만들 수 있다는 점이 큰 매력이죠!

2. 사전 준비: 설치와 환경 설정

본격적으로 시작하기 전에 몇 가지 준비물이 필요합니다. 아래 단계를 따라 주세요.

2.1 ComfyUI 설치

최신 버전 다운로드: ComfyUI 공식 GitHub에서 최신 릴리스를 받아 설치합니다. 이미 설치되어 있다면, 반드시 최신 버전으로 업데이트하세요(Wan 2.1 지원은 최신 버전에서만 가능).
Python 환경 확인: Python 3.10 이상이 설치되어 있어야 합니다. 의존성 충돌을 피하려면 가상 환경을 사용하는 걸 추천해요.
필수 라이브러리 설치: pip install -r requirements.txt 명령어로 필요한 패키지를 설치합니다.

2.2 Wan 2.1 모델 다운로드

Wan 2.1 모델은 Hugging Face나 ModelScope에서 다운로드할 수 있습니다. 이미지-to-비디오(I2V)를 위해 아래 파일들을 준비하세요:

Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors: 고화질 작업용(14B 파라미터).
Wan2_1_VAE_bf16.safetensors: 비디오 인코딩/디코딩에 필요.
umt5_xxl_fp8_e4m3fn_scaled.safetensors: 텍스트 인코더.
open-clip-xlm-roberta-large-vit-huge-14_fp16.safetensors: CLIP 비전 모델.

이 파일들은 ComfyUI 폴더 내 적절한 디렉토리(models/unet, models/vae, models/text_encoders, models/clip_vision)에 넣어 주세요.

2.3 하드웨어 요구사항

GPU: 최소 8GB VRAM (RTX 3060 이상 추천).
RAM: 16GB 이상 권장.
저사양 PC라면 1.3B 모델을 사용해 보세요. 14B 모델은 24GB VRAM이 이상적입니다.

3. 워크플로우 설정: 이미지에서 동영상까지

이제 ComfyUI에서 워크플로우를 설정해 볼게요. 아래 과정을 하나씩 따라 주세요.

3.1 ComfyUI 실행

ComfyUI를 실행하면 노드 기반 인터페이스가 나타납니다. 처음엔 좀 낯설 수 있지만, 익숙해지면 정말 편리해요!

3.2 기본 워크플로우 불러오기

ComfyUI 공식 블로그나 Wiki에서 제공하는 Wan2.1 I2V 워크플로우를 다운로드합니다.
인터페이스에 파일을 드래그하거나 Workflows -> Open으로 불러옵니다.

3.3 노드 설정

워크플로우에는 여러 노드가 연결되어 있는데, 주요 노드를 다음과 같이 조정하세요:

Load Image: 변환하고 싶은 이미지를 업로드합니다. 832x480(16:9) 또는 480x832(9:16) 해상도를 권장해요.
WanImageToVideo: Wan 2.1 I2V 모델을 선택합니다(예: Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors).
CLIP Text Encode (Prompt): 동영상에 적용할 설명을 입력합니다. 예를 들어, "A cat jumping on a sunny beach"처럼 구체적으로 쓰면 더 좋은 결과가 나와요.
VAE Decode: Wan2_1_VAE_bf16.safetensors를 선택해 비디오를 디코딩합니다.
KSampler: 샘플링 설정을 조정합니다. 기본값은 Steps 20, CFG 4~6으로 시작해 보세요.

3.4 프롬프트 팁

구체적일수록 좋아요: "A dog running"보다 "A golden retriever running through a forest with falling leaves"가 더 나은 결과를 줍니다.
부정 프롬프트 추가: "blurry, low quality" 같은 단어를 넣어 원치 않는 요소를 줄일 수 있어요.

4. 동영상 생성 실행

설정이 끝났다면, 상단의 Queue Prompt 버튼(또는 Ctrl+Enter)을 눌러 생성을 시작합니다.

소요 시간: GPU 성능에 따라 다르지만, RTX 3060 기준으로 480p 3초 영상은 약 5~7분 걸립니다.
결과 확인: 생성된 동영상은 ComfyUI 출력 폴더에 저장됩니다.

처음엔 결과가 마음에 안 들 수 있어요. 그럴 땐 Steps나 CFG 값을 조금씩 조정하며 테스트해 보세요. 저는 CFG를 5로 설정했을 때 자연스러운 움직임이 잘 나왔습니다.

5. 문제 해결 팁

혹시 오류가 나거나 결과가 이상하다면 아래를 확인해 보세요:

모델 로드 오류: 파일 경로와 이름을 다시 점검하세요.
VRAM 부족: 14B 대신 1.3B 모델을 사용하거나, 해상도를 낮춰 보세요.
움직임이 부자연스러움: 프롬프트를 더 구체적으로 수정하거나, augmentation level을 조정해 보세요.

6. 마무리: 나만의 창작물 만들기

이제 여러분도 ComfyUI와 Wan 2.1으로 멋진 동영상을 만들 준비가 되셨습니다! 다양한 이미지 만들기에 도전해보아요~!

'일상 > IT.과학' 카테고리의 다른 글

AMD Radeon RX 9070 XT 상세 정보와 벤치마킹 결과 총정리 (0)	2025.03.06
오픈AI '박사급 AI' 에이전트 비용 .. (0)	2025.03.06
퓨리오사 AI, 어떤 회사일까? (0)	2025.03.05
LG 엔솔 46 배터리, 뭐가 다를까? (0)	2025.03.05
스타십 8차 시험비행 6일 재시도~ (0)	2025.03.05

현재글ComfyUI와 Wan 2.1으로 이미지에서 동영상 만드는 가이드

환영합니다. 모든분들. 정보 공유의 장이 되었으면 합니다.

Memorypool, init, 스페이스x#스타십, 퓨리오사#ai, 나주시#입학지원금, 엘지엔솔#46배터리, Android, soop#2025 kbo, 이천#문화예술패스, CListCtrl, opencv, CTreeCtrl, hooking, ts, CheckBox, MPEG, Custom, CROSS, ffmpeg, 서울시#1인#출산 지원금,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

잡동사니 마구노투