본문 바로가기
AI 개발 도구

Lightricks LTX-2 리뷰: 오픈소스 비디오 생성 모델 직접 돌려본 노트 (2026)

by 정부우르사 2026. 6. 19.
반응형
Lightricks LTX-2 오픈소스 비디오 생성 모델 리뷰 2026

오픈소스 비디오 생성 모델 흐름이 다시 시끄럽다. Sora 2와 Veo 3가 클라우드 API로만 풀리면서 "내 GPU에서 돌릴 수 있는 진짜 영상 모델"이 어디 있냐는 물음이 이어지던 와중, Lightricks가 6월 초 LTX-2를 공개했다. GitHub Python 트렌딩 상위에 머무는데 한국어 자료는 거의 없어 직접 받아 돌려봤다.

동시기 클로즈드 모델과 가격·해상도·라이선스를 표로 정리했고, 설치 경로 두 가지와 RTX 4090 24GB에서의 실제 생성 시간, 한계점까지 한 번에 본다.

LTX-2가 뭔가

LTX-2는 Lightricks의 2세대 오픈소스 비디오 생성 모델이다. 1세대 LTX-Video는 약 2B 파라미터 DiT(Diffusion Transformer) 기반으로 작년 말 공개됐고, 이번 LTX-2는 멀티모달(텍스트→영상, 이미지→영상)과 오디오 동기화를 한 모델 안에서 처리하도록 확장됐다.

구조적 핵심은 세 가지다. 시간축을 압축하는 비디오 VAE로 720p 5초 클립을 한 장의 RTX 4090에서도 돌릴 수 있게 했고, 텍스트·이미지·오디오 조건을 동일한 어텐션 블록에서 섞으며, 상업적 사용이 가능한 라이선스로 풀려 사이드프로젝트 수익화까지 막히지 않는다.

공식 README는 "LTX-2 weights are released under the LTX-Video Community License, which permits commercial use up to 1M MAU"로 명시한다. 1백만 MAU 이상은 별도 협의가 필요하지만, 개인·중소 프로젝트는 자유롭다.

주요 기능과 스펙

릴리스 노트와 모델 카드를 정리하면 LTX-2의 표 스펙은 이렇다.

  • 해상도: 최대 1216×704 (네이티브), 업스케일러 결합 시 4K까지
  • 길이: 최대 10초 (디폴트 5초, 121프레임)
  • FPS: 24, 25, 30 중 선택
  • 입력: 텍스트 / 이미지+텍스트 / 키프레임 두 장 보간
  • 오디오: 같은 모델이 BGM·환경음 합성 (실험적, 시드에 따라 립싱크 불일치)
  • VRAM: 12GB로 480p 5초 (CPU offload), 24GB로 720p 10초
  • 라이선스: LTX-Video Community License (상업 사용, 1M MAU 상한)

특히 눈에 띄는 건 이미지→비디오 모드다. 첫 프레임을 고정하고 텍스트로 동작만 지시하면 캐릭터 일관성이 클로즈드 모델 못지않다. 키프레임 두 장 사이를 보간하는 모드도 정식 지원돼 짧은 컷 위주 스토리보드 시안에 쓸 만하다.

LTX-2 vs Sora 2 vs Veo 3 비교

같은 시점에서 비교할 수 있는 항목을 표로 정리했다. 가격은 2026년 6월 공식 발표 기준이고, "로컬 실행"은 단일 컨슈머 GPU(24GB 이하)에서 돌릴 수 있는지를 본다.

항목 LTX-2 Sora 2 Veo 3
제공 형태 오픈소스 (가중치 공개) OpenAI API + ChatGPT Pro Google Vertex AI / Gemini
로컬 실행 가능 (RTX 4090 24GB) 불가 불가
최대 해상도 1216×704 (네이티브) 1080p 1080p
최대 길이 10초 20초 8초
오디오 동기 생성 지원 (실험적) 지원 지원 (대화 포함)
가격 전기료만 $0.30/sec (1080p) 약 $0.50/sec
상업적 사용 1M MAU까지 가능 유료 플랜 내 허용 유료 플랜 내 허용
워크플로 통합 Diffusers / ComfyUI API 호출 API 호출

길이와 절대 화질은 클로즈드 두 모델이 앞선다. 그런데 "5초 클립 100개 뽑아 시안 검토" 같은 반복 작업은 클라우드 비용이 빠르게 누적된다. Sora 2로 1080p 5초 100개를 뽑으면 약 $150이고, LTX-2는 같은 작업을 RTX 4090 한 장으로 하룻밤 돌리면 전기료 2~3천 원이면 끝난다. 비용 구조 자체가 다르다.

설치와 첫 영상 생성

설치 경로는 두 가지가 표준이다. 코드 친화적인 사람은 Diffusers, GUI 워크플로를 짜는 사람은 ComfyUI다.

Diffusers로 5분 만에

Python 3.10 이상, CUDA 12.1 이상이 깔린 상태에서 의존성부터 받는다.

pip install --upgrade diffusers transformers accelerate
pip install imageio[ffmpeg] sentencepiece

그 다음 짧은 파이썬 스크립트로 첫 영상을 뽑는다.

import torch
from diffusers import LTXPipeline
from diffusers.utils import export_to_video

pipe = LTXPipeline.from_pretrained(
    "Lightricks/LTX-Video-2",
    torch_dtype=torch.bfloat16,
).to("cuda")

prompt = "A neon-lit Seoul alley at night, light rain, slow dolly forward"
video = pipe(
    prompt=prompt,
    width=1216,
    height=704,
    num_frames=121,
    num_inference_steps=40,
).frames[0]

export_to_video(video, "out.mp4", fps=24)

이 스크립트 자체는 RTX 4090(24GB)에서 처음 모델 로드까지 포함해 약 90초, 두 번째 실행부터는 영상 한 편당 110~140초 정도였다.

ComfyUI 워크플로

ComfyUI Manager에서 "LTX Video" 노드 팩을 설치하면 공식 예제 워크플로 JSON이 같이 깔린다. 가중치는 models/checkpoints/ 아래에 .safetensors로 두면 자동 인식된다. 텍스트→비디오, 이미지→비디오, 키프레임 보간 세 워크플로가 기본 제공돼 노드 그래프를 처음부터 짤 필요가 없다.

직접 써본 소감 (RTX 4090 24GB 메모)

5일 동안 약 60편을 뽑아본 메모를 정리한다.

  • 720p 5초(121프레임, 40 steps): 한 편당 평균 118초, VRAM 사용량 약 19GB. 같은 프롬프트에 시드만 바꿔 8개를 큐에 걸어두면 16분 만에 다 나온다.
  • 720p 10초(241프레임): 한 편당 약 240초, VRAM 22~23GB까지 치솟아서 다른 작업 병행은 불가.
  • 이미지→비디오: 첫 프레임 일관성은 매우 좋다. 캐릭터 얼굴이 무너지는 빈도가 LTX-Video 1세대 대비 체감으로 절반 이하.
  • 오디오 동기: 환경음(빗소리·발걸음)은 자연스럽지만, 입 모양에 맞춘 대사 동기는 5~6번에 한 번 정도만 깔끔하다.
  • 프롬프트 민감도: 카메라 무브먼트(dolly, pan, zoom)에 잘 반응한다. 추상 형용사("dreamy", "ethereal")는 시드별 편차가 크다.

거슬렸던 점도 있다. 빠른 모션이 들어가면 손가락·자전거 바퀴 같은 작은 디테일이 여전히 흐릿하고, 모델 로드 자체가 무거워서 단발성 실행이라면 ComfyUI 서버를 띄워두고 큐에 던지는 편이 낫다. 라이선스의 1M MAU 상한도 대부분의 개인 프로젝트엔 영향이 없지만, B2B SaaS로 끼워 팔 생각이라면 한 번 더 확인해야 한다.

FAQ

LTX-2는 무료인가?

가중치는 무료로 받을 수 있고, 월간 활성 사용자 1백만 명 이하 서비스라면 상업적 사용도 무료다. 그 이상이면 Lightricks와 라이선스 협의가 필요하다.

로컬에서 돌리려면 어떤 GPU가 필요한가?

최소 RTX 3090 또는 4080(16GB)에서 480p 5초가 가능하고, 720p를 풀 디테일로 돌리려면 RTX 4090(24GB)이 표준이다. A6000 48GB에서는 10초 클립을 한 번에 두 개 큐잉할 수 있다.

LTX-2와 Sora 2 중 무엇이 더 좋은가?

절대 화질·길이는 Sora 2, 비용·로컬 실행·반복 시안 작업에서는 LTX-2가 앞선다. 광고 최종 컷이라면 Sora 2, 시안·소셜 숏폼 양산이라면 LTX-2가 합리적이다.

상업적 사용이 가능한가?

가능하다. 1M MAU 상한이 있는 커뮤니티 라이선스라서 대부분의 개인·중소 사업체는 그대로 써도 된다.

출력 영상의 최대 길이는?

모델 자체 한계는 10초(241프레임, 24fps)다. 더 긴 영상은 키프레임 보간을 이어 붙이거나 후처리 컷 편집으로 만들어야 한다.

핵심 3줄 요약

  • LTX-2는 RTX 4090 24GB에서 720p 5초 영상을 약 118초에 뽑을 수 있는 2세대 오픈소스 비디오 모델로, 텍스트·이미지·오디오를 한 모델에서 처리한다.
  • 커뮤니티 라이선스로 1M MAU까지 상업 사용이 자유로워 시안 양산·인디 프로젝트·B2C 영상 SaaS 백엔드에 바로 투입할 수 있다.
  • 절대 화질·길이는 Sora 2·Veo 3가 앞서지만 5초 클립 100개 양산 기준 비용이 $150 vs 3천 원으로 구조적으로 다르다.

정리

LTX-2는 오픈소스 비디오 모델이 클로즈드와 어떻게 다른지를 잘 보여준다. 단일 컷 절대 화질로는 Sora 2·Veo 3에 한 칸 뒤지지만, 로컬 실행 + 상업 라이선스 + 반복 비용 0이라는 조합은 클로즈드가 흉내 낼 수 없다. 시안을 100개 뽑아 6개로 추리는 워크플로, B2C 영상 SaaS의 백엔드 후보, 학생·인디 개발자의 학습 도구로 첫 선택지에 올려둘 만하다.

직접 돌려볼 거라면 ComfyUI 경로로 시작하길 권한다. 노드 그래프가 그대로 시안 비교 패널이 되고, 큐 시스템이 24GB GPU의 야간 가동률을 살려준다.

참고 자료

작성자: 로컬 GPU 환경에서 오픈소스 비디오 생성 모델을 인디 프로젝트 시안·B2C SaaS PoC에 투입하며 정리한 노트다. RTX 4090 24GB, CUDA 12.4, Diffusers 0.32 / ComfyUI 0.3 환경에서 5일간 60편을 직접 뽑아본 메모를 바탕으로 작성했고, 가격·라이선스 정보는 2026년 6월 기준 공식 발표를 따랐다.

반응형