본문 바로가기
AI 리뷰

Microsoft VibeVoice: 90분 다화자 팟캐스트 TTS 정리

by 정부우르사 2026. 6. 8.
반응형

"오픈소스 TTS 한 모델로 30분짜리 팟캐스트 한 편을 통째로 뽑을 수 있나요?" — Microsoft VibeVoice는 이 질문에 처음으로 "네"라고 답하는 모델이다.


이 질문에 그동안 깔끔하게 "네"라고 답하기 어려웠다. 대다수 오픈소스 음성합성 모델은 30~60초 구간에서 호흡이 끊기고, 두 명이 번갈아 말하는 대화는 더 짧게 잘렸다. Microsoft가 공개한 VibeVoice는 이 한계를 정면으로 겨눈 모델이다. 단일 합성에서 최대 90분, 화자 4명을 자연스럽게 섞는다는 점이 가장 큰 차별점이다.


📌 핵심 3줄 요약

💡 한눈에 보는 VibeVoice

  • Microsoft Research가 공개한 장형식·다화자 오픈소스 TTS로, 단일 추론에서 최대 90분 / 화자 4명을 처리한다.
  • 음성을 7.5Hz까지 압축한 Continuous Speech Tokenizer와 LLM 위에 얹은 Diffusion head가 길이·일관성·디테일을 동시에 챙긴다.
  • 한국어는 공식 학습 언어가 아니며, 라이선스는 MIT지만 모든 출력에 워터마크와 AI 음성 고지가 강제되고 사용 정책이 따로 있어 도입 전에 확인해야 한다.

1. VibeVoice 한 줄 정리와 발표 타임라인

VibeVoice는 Microsoft Research가 공개한 프레임워크형 텍스트-투-스피치 모델이다. 공식 GitHub 저장소(microsoft/VibeVoice)와 프로젝트 페이지에 따르면 단일 추론에서 최대 약 90분, 화자 4명까지 처리할 수 있도록 설계됐다. 2025년 8월 1.5B 파라미터 체크포인트가 먼저 풀렸고, 이어 7B 프리뷰가 공개되면서 GitHub 트렌딩 상위권에 올랐다.

발표 자체는 조용했다. 별도 키노트가 아니라 GitHub 저장소, 프로젝트 페이지(microsoft.github.io/VibeVoice), arXiv 테크니컬 리포트가 동시에 풀린 형태다. 그럼에도 "장형식 다화자 합성"이라는 키워드 하나로 오디오북·팟캐스트 제작자 커뮤니티에 빠르게 퍼졌다.


2. 기존 오픈소스 TTS의 한계

지난 2년간 오픈소스 TTS는 폭발적으로 늘었지만, 장형식·다화자 합성 앞에서는 세 가지 벽이 공통적이었다.

  • 길이 제약 — XTTS-v2, Bark 등 대표 모델은 안정 구간이 30초 안팎. 그 이상은 발음이 흐려지거나 톤이 흔들렸다.
  • 단일 화자 위주 — 대부분 한 명의 보이스 클로닝에 최적화돼, 다인 대화는 후처리 편집으로 이어 붙여야 했다.
  • 컨텍스트 단절 — 문맥 길이가 짧아 앞뒤 톤·감정 일관성이 깨진다. 30분 분량을 잘라 합성하면 "다른 사람이 읽은 것 같다"는 인상이 생긴다.

세 가지가 동시에 풀리지 않으면 팟캐스트나 오디오북 전체 합성은 비현실적이었다. VibeVoice는 토큰 압축률과 디퓨전 헤드라는 두 축으로 이 문제를 직접 공략한다.


3. 아키텍처 핵심 — Tokenizer + Diffusion

VibeVoice 테크니컬 리포트의 구조는 크게 세 단계로 요약된다.

  • Continuous Speech Tokenizer — 음성을 약 7.5Hz까지 다운샘플링해 토큰 시퀀스를 극단적으로 짧게 만든다. 80Hz대를 쓰는 일반 음성 코덱 대비 10배 이상 압축돼, 90분 분량이라도 LLM 컨텍스트에 들어간다.
  • LLM 백본 — Qwen 계열 LLM이 대본·화자 ID·시맨틱 토큰을 함께 받아 "다음에 어떤 음성 토큰이 와야 하는지" 예측한다. 화자 전환과 맥락 일관성은 이 LLM이 담당한다.
  • Diffusion Head — LLM이 뽑은 잠재 표현 위에 가벼운 디퓨전 디코더가 붙어 실제 파형 디테일을 채운다. 톤·호흡·미세한 떨림처럼 LLM이 약한 영역을 디퓨전이 보강한다.

"LLM은 길게 보고, 디퓨전은 짧게 다듬는다."

— VibeVoice 아키텍처 요지

덕분에 같은 GPU 메모리로 훨씬 긴 음성을 한 번에 생성할 수 있다.


4. 주요 기능과 스펙

공식 모델 카드 기준 핵심 스펙은 다음과 같다.

  • 최대 길이 — 단일 합성 약 90분
  • 동시 화자 수 — 최대 4명, 자동 화자 전환 지원
  • 공식 지원 언어 — 영어, 중국어 (정식 학습 언어)
  • 공개 체크포인트 — VibeVoice-1.5B(정식), VibeVoice-Large-7B(프리뷰)
  • 추론 환경 — 단일 GPU 24GB 환경에서 1.5B 추론이 가능한 수준으로 보고됨
  • 라이선스 — 코드·모델 모두 MIT (사용 정책은 별도 명시)
  • 출력 보호 — 모든 출력에 가청 고지 + 비가청 워터마크 강제 삽입

공식 데모 페이지의 90분 팟캐스트 샘플을 들어보면, 두 화자의 호흡 간격과 끼어들기 타이밍이 인공적으로 잘라 붙인 인상이 거의 없다는 점이 가장 인상적이다. 음색 자체는 아직 상용 보이스 클로닝 서비스 수준의 풍성함은 아니지만, 30분을 연속으로 들어도 톤이 한쪽으로 표류하지 않는다는 점이 다른 오픈소스 TTS와 결정적으로 다르다.


5. 🆚 VibeVoice vs VoxCPM2 vs XTTS-v2 vs Bark

같은 오픈소스 TTS 카테고리에서 자주 비교되는 네 모델을 항목별로 정리했다.

항목 VibeVoice VoxCPM2 XTTS-v2 Bark
공개 시점 2025 (MS Research) 2026-06 (OpenBMB) 2023 (Coqui) 2023 (Suno)
최대 합성 길이 약 90분 수 분대 약 30초 권장 약 14초
동시 화자 수 최대 4명 단일 화자 중심 단일 화자 클로닝 단일 화자
공식 지원 언어 영어, 중국어 영어, 중국어 17개(한국어 포함) 다국어(실험적)
핵심 구조 LLM + Diffusion Head 토크나이저 프리 GPT + HiFi-GAN 시맨틱 토큰 + 코덱
라이선스 MIT (사용 정책 별도) Apache 2.0 계열 CPML(비상업 기본) MIT
강점 장형식·다화자 일관성 가벼운 단일 화자 다국어 클로닝 폭 웃음·효과음 등

라이선스 항목은 시간이 지나며 정책이 바뀔 수 있으니, 도입 시 각 저장소의 LICENSE 파일을 다시 확인하는 게 안전하다.


6. 💡 실전 시나리오 3가지

VibeVoice가 가장 잘 맞는 자리는 "한 번에 길게 뽑아야 하고, 두 명 이상이 등장하는" 콘텐츠다.

  • 팟캐스트 파일럿 제작 — 호스트와 게스트 두 명을 4화자 슬롯 중 두 자리에 배치하고, 30분 이상의 대본을 한 번에 합성. 톤 가이드는 화자별 짧은 레퍼런스 오디오로 지정한다.
  • 장편 오디오북 챕터 — 1~2시간 분량을 챕터 단위로 합성. 같은 캐릭터 보이스가 챕터 사이에 일관되게 유지된다는 점이 후처리 부담을 줄인다.
  • 인터뷰 재구성·번역 더빙 — 텍스트 인터뷰를 화자 두 명의 대화 음원으로 변환. 다국어 모델이 아니므로 영어·중국어 콘텐츠에 우선 적용하는 게 현실적이다.

세 시나리오 모두 사전에 "이 콘텐츠는 AI 음성으로 생성됐다"는 고지가 필요하다. VibeVoice는 출력에 워터마크와 고지 메시지를 강제하기 때문에, 상용 공개 시 메타데이터에 함께 표기하는 흐름이 자연스럽다.


7. ⚠️ 라이선스·워터마크·윤리 정책

VibeVoice의 코드와 모델 가중치는 모두 MIT 라이선스다. 다만 모델 카드에 별도 사용 정책이 명시돼 있어, 라이선스만 보고 자유롭게 쓰기 전에 정책 항목을 함께 확인해야 한다.

⚠️ 도입 전에 반드시 확인할 정책

  • 라이선스는 MIT지만, 모델 카드는 "연구·개발 목적" 사용을 권고한다. 정치인 음성 복제·실시간 통화 위변조·사기 행위는 명시적으로 금지된다.
  • 모든 출력에 가청 고지 한 줄과 비가청 워터마크가 자동 삽입된다. 우회 시도는 사용 정책 위반이다.
  • 의료·법률·금융 상담처럼 "사용자가 실제 사람으로 오인할 수 있는" 시나리오는 사용 자제 권고 영역이다.

MIT 라이선스라서 상업적 이용 자체는 막혀 있지 않다. 다만 워터마크 강제와 금지 항목이 사실상 SaaS 그대로 꽂기엔 제약이 되므로, 도입 시 사용 정책을 라이선스와 동등하게 검토하는 게 안전하다.


8. 🙋 한국어 지원과 실전 도입 고려사항

한국어는 공식 학습 언어가 아니다. 1.5B 체크포인트는 영어·중국어 중심으로 평가됐고, 한국어 입력은 부분적으로 음성이 나오긴 하지만 발음·억양 안정성이 보장되지 않는다. 한국어 팟캐스트 제작 용도라면 지금 시점에서는 다음 옵션이 현실적이다.

  • 한국어 지원이 명시된 XTTS-v2 계열을 기본으로 두고, 영어·중국어 구간만 VibeVoice로 분리 합성
  • 한국어 미세조정 커뮤니티 포크가 나오는지 관찰한 뒤, 라이선스 범위 안에서 평가한다.
  • 사내 PoC 단계라면 연구용 라이선스 안에서 내부 데모로만 사용

도입 결정 전 점검할 항목을 정리하면 다음과 같다.

  1. 콘텐츠가 영어 또는 중국어 기반인가?
  2. AI 생성 음성 고지를 제품 UI와 메타데이터에 포함할 수 있는가?
  3. 워터마크 삽입을 비즈니스 요구사항이 허용하는가?
  4. 실시간성이 아니라 사전 합성 콘텐츠 시나리오인가?

이 네 가지가 모두 "예"라면 VibeVoice는 현시점에서 가장 매력적인 장형식 오픈소스 TTS 선택지다. 반대로 한국어 상용 서비스가 목적이라면 다음 버전 또는 한국어 지원이 명확한 다른 모델을 함께 검토하는 편이 안전하다.

✅ 핵심 정리

  • VibeVoice는 90분·4화자 합성을 한 번에 처리하는 Microsoft의 오픈소스 TTS다.
  • Continuous Speech Tokenizer(7.5Hz) + LLM + Diffusion Head 조합이 길이와 일관성을 동시에 잡는다.
  • 공식 지원 언어는 영어·중국어이며 한국어는 비공식이다.
  • 코드·모델은 MIT 라이선스지만, 워터마크 강제와 별도 사용 정책이 있어 상용 전 정책 검토가 필수다.

🚀 지금 바로 할 일

  1. VibeVoice GitHub 저장소에서 README와 LICENSE를 먼저 읽고, 본인 시나리오가 허용 범위 안에 있는지 확인한다.
  2. Hugging Face의 1.5B 체크포인트로 10분짜리 영어 대화 한 편을 합성해, 톤 일관성을 직접 들어본다.
  3. 한국어 콘텐츠라면 XTTS-v2 등 다국어 모델과의 분리·하이브리드 파이프라인 설계를 먼저 잡는다.

💬 의견

장형식·다화자 TTS를 실제 콘텐츠 제작에 써본 적이 있다면, 어떤 모델에서 어떤 한계를 가장 크게 느꼈는지 댓글로 공유 부탁드립니다.


참고 자료


작성자: AI 모델·도구를 직접 들어보고 정리하는 기술 블로거. 이 글은 Microsoft VibeVoice의 공식 GitHub README, 프로젝트 페이지, Hugging Face 모델 카드를 1차 자료로 활용했다.

표의 라이선스·길이 수치는 작성 시점 공개 정보 기준이며, 시간이 지나면서 정책이 갱신될 수 있다.

반응형