일상/IT.과학

ComfyUI와 Wan 2.1으로 이미지에서 동영상 만드는 가이드

TFTC 2025. 3. 6. 12:55
반응형

오늘은 AI 기술을 활용해 이미지를 동영상으로 변환하는 멋진 방법을 소개하려고 합니다. 바로 ComfyUIWan 2.1 모델을 사용하는 방법인데요. 이 가이드를 따라 하시면 여러분의 사진을 생동감 있는 영상으로 바꿀 수 있습니다. 초보자도 쉽게 따라 할 수 있도록 하나씩 차근차근 설명드릴게요. 그럼 시작해 볼까요?


1. ComfyUI와 Wan 2.1이 뭐길래?

먼저 기본 개념부터 짚고 넘어가겠습니다.

  • ComfyUI는 Stable Diffusion 기반의 노드 인터페이스로, AI 작업을 시각적으로 구성할 수 있는 도구입니다. 직관적인 워크플로우 덕분에 복잡한 설정을 쉽게 조정할 수 있어요.
  • Wan 2.1은 알리바바에서 2025년 2월에 오픈소스로 공개한 최신 비디오 생성 모델입니다. 텍스트-to-비디오(T2V), 이미지-to-비디오(I2V) 등 다양한 작업을 지원하며, 특히 1.3B 모델은 8GB VRAM만으로도 실행 가능해 접근성이 뛰어납니다.

이 두 가지를 결합하면, 일반 PC에서도 고품질 동영상을 만들 수 있다는 점이 큰 매력이죠!


2. 사전 준비: 설치와 환경 설정

본격적으로 시작하기 전에 몇 가지 준비물이 필요합니다. 아래 단계를 따라 주세요.

2.1 ComfyUI 설치

  1. 최신 버전 다운로드: ComfyUI 공식 GitHub에서 최신 릴리스를 받아 설치합니다. 이미 설치되어 있다면, 반드시 최신 버전으로 업데이트하세요(Wan 2.1 지원은 최신 버전에서만 가능).
  2. Python 환경 확인: Python 3.10 이상이 설치되어 있어야 합니다. 의존성 충돌을 피하려면 가상 환경을 사용하는 걸 추천해요.
  3. 필수 라이브러리 설치: pip install -r requirements.txt 명령어로 필요한 패키지를 설치합니다.

2.2 Wan 2.1 모델 다운로드

Wan 2.1 모델은 Hugging Face나 ModelScope에서 다운로드할 수 있습니다. 이미지-to-비디오(I2V)를 위해 아래 파일들을 준비하세요:

  • Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors: 고화질 작업용(14B 파라미터).
  • Wan2_1_VAE_bf16.safetensors: 비디오 인코딩/디코딩에 필요.
  • umt5_xxl_fp8_e4m3fn_scaled.safetensors: 텍스트 인코더.
  • open-clip-xlm-roberta-large-vit-huge-14_fp16.safetensors: CLIP 비전 모델.

이 파일들은 ComfyUI 폴더 내 적절한 디렉토리(models/unet, models/vae, models/text_encoders, models/clip_vision)에 넣어 주세요.

2.3 하드웨어 요구사항

  • GPU: 최소 8GB VRAM (RTX 3060 이상 추천).
  • RAM: 16GB 이상 권장.
  • 저사양 PC라면 1.3B 모델을 사용해 보세요. 14B 모델은 24GB VRAM이 이상적입니다.

3. 워크플로우 설정: 이미지에서 동영상까지

이제 ComfyUI에서 워크플로우를 설정해 볼게요. 아래 과정을 하나씩 따라 주세요.

3.1 ComfyUI 실행

ComfyUI를 실행하면 노드 기반 인터페이스가 나타납니다. 처음엔 좀 낯설 수 있지만, 익숙해지면 정말 편리해요!

3.2 기본 워크플로우 불러오기

  1. ComfyUI 공식 블로그나 Wiki에서 제공하는 Wan2.1 I2V 워크플로우를 다운로드합니다.
  2. 인터페이스에 파일을 드래그하거나 Workflows -> Open으로 불러옵니다.

3.3 노드 설정

워크플로우에는 여러 노드가 연결되어 있는데, 주요 노드를 다음과 같이 조정하세요:

  • Load Image: 변환하고 싶은 이미지를 업로드합니다. 832x480(16:9) 또는 480x832(9:16) 해상도를 권장해요.
  • WanImageToVideo: Wan 2.1 I2V 모델을 선택합니다(예: Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors).
  • CLIP Text Encode (Prompt): 동영상에 적용할 설명을 입력합니다. 예를 들어, "A cat jumping on a sunny beach"처럼 구체적으로 쓰면 더 좋은 결과가 나와요.
  • VAE Decode: Wan2_1_VAE_bf16.safetensors를 선택해 비디오를 디코딩합니다.
  • KSampler: 샘플링 설정을 조정합니다. 기본값은 Steps 20, CFG 4~6으로 시작해 보세요.

3.4 프롬프트 팁

  • 구체적일수록 좋아요: "A dog running"보다 "A golden retriever running through a forest with falling leaves"가 더 나은 결과를 줍니다.
  • 부정 프롬프트 추가: "blurry, low quality" 같은 단어를 넣어 원치 않는 요소를 줄일 수 있어요.

4. 동영상 생성 실행

설정이 끝났다면, 상단의 Queue Prompt 버튼(또는 Ctrl+Enter)을 눌러 생성을 시작합니다.

  • 소요 시간: GPU 성능에 따라 다르지만, RTX 3060 기준으로 480p 3초 영상은 약 5~7분 걸립니다.
  • 결과 확인: 생성된 동영상은 ComfyUI 출력 폴더에 저장됩니다.

처음엔 결과가 마음에 안 들 수 있어요. 그럴 땐 Steps나 CFG 값을 조금씩 조정하며 테스트해 보세요. 저는 CFG를 5로 설정했을 때 자연스러운 움직임이 잘 나왔습니다.


5. 문제 해결 팁

혹시 오류가 나거나 결과가 이상하다면 아래를 확인해 보세요:

  • 모델 로드 오류: 파일 경로와 이름을 다시 점검하세요.
  • VRAM 부족: 14B 대신 1.3B 모델을 사용하거나, 해상도를 낮춰 보세요.
  • 움직임이 부자연스러움: 프롬프트를 더 구체적으로 수정하거나, augmentation level을 조정해 보세요.

6. 마무리: 나만의 창작물 만들기

이제 여러분도 ComfyUI와 Wan 2.1으로 멋진 동영상을 만들 준비가 되셨습니다! 다양한 이미지 만들기에 도전해보아요~!

반응형