텐센트, 텍스트와 비디오를 고품질 오디오로 변환하는 AI 프레임워크 'HunyuanVideo-Foley' 공개
텐센트(Tencent)가 2025년 8월 28일, 텍스트와 비디오를 기반으로 고품질의 오디오를 생성하는 새로운 AI 프레임워크 'HunyuanVideo-Foley'를 오픈소스로 공개했. 이 프레임워크는 비디오 제작, 영화 제작, 게임 개발 등 다양한 창작 분야에서 시각적 요소와 완벽히 동기화된 전문급 오디오를 생성할 수 있도록 설계되었다.
주요 혁신과 기술적 특징
HunyuanVideo-Foley는 다음과 같은 핵심 혁신을 통해 기존의 비디오-오디오(V2A) 생성 기술의 한계를 극복한다.
1.
대규모 데이터셋 기반의 일반화 능력
이 모델은 10만 시간 이상의 대규모 멀티모달 데이터셋으로 훈련되었다. 이를 통해 자연 풍경, 동물 소리, 인간 행동, 차량 소음, 애니메이션, 과학 판타지 장면 등 다양한 시나리오에서 문맥에 맞는 사운드스케이프를 생성할 수 있다. 예를 들어, 비디오 클립에 "해변에서 파도가 치는 소리"라는 텍스트 설명을 추가하면, 실제 파도 소리와 조화를 이루는 오디오를 생성한다.
2.
균형 잡힌 멀티모달 응답
HunyuanVideo-Foley는 멀티모달 확산 트랜스포머(MMDiT) 아키텍처를 채택했다. 이 아키텍처는 비디오와 텍스트 신호를 동시에 처리하며, 주요 주제와 미세한 배경 요소를 모두 포착하는 풍부한 계층의 음향 효과를 생성한다. 예를 들어, 한 비디오에서 스케이트보드가 콘크리트 바닥을 긁는 소리와 착지하는 소리를 동시에 생성할 수 있다.
3.
고품질 오디오 생성
표현 정렬(REPA) 손실 함수와 강력한 오디오 VAE(Audio VAE)를 활용해 생성 안정성을 향상시키고, 노이즈와 불일치를 최소화한 전문급 오디오를 생산한다. 이는 48kHz의 고해상도 오디오를 생성하며, 전문 오디오 엔지니어가 요구하는 수준의 품질을 제공한다.
성능과 벤치마크
HunyuanVideo-Foley는 여러 벤치마크에서 최신 기술(State-of-the-Art, SOTA) 성능을 달성하며, 오디오 품질, 시각-의미적 정렬, 시간적 정렬에서 모두 기존 오픈소스 모델을 초월했다. 예를 들어, Hugging Face에서의 평가 결과, 이 모델은 오디오 충실도(Fidelity), 시각-의미적 정렬(Visual-Semantic Alignment), 시간적 정렬(Temporal Alignment)에서 모두 최고 점수를 기록했다. 이는 기존 오픈소스 솔루션들을 모두 능가하는 성능이다.
적용 사례
이 프레임워크는 다음과 같은 다양한 시나리오에서 활용될 수 있다:
•
영화 및 TV 제작: 복잡한 비디오 장면과 완벽히 동기화된 고품질 오디오를 생성하여 현실감과 몰입감을 높힌다.
•
게임 개발: 게임 내에서 동적인 사운드 효과를 실시간으로 생성하여 사용자 경험을 향상시킨다.
•
광고 및 콘텐츠 제작: 텍스트 설명과 비디오를 기반으로 빠르고 효율적인 오디오 생성이 가능해 창작 workflow를 향상 시킨다.
접근성과 오픈소스 리소스
텐센트는 HunyuanVideo-Foley의 오픈소스 공개와 함께 다음과 같은 리소스를 제공했다:
•
•
•
•
•
기술적 세부 사항
HunyuanVideo-Foley는 하이브리드 아키텍처를 채택하여 멀티모달 트랜스포머 블록과 유니모달 트랜스포머 블록을 결합했다. 이는 비디오와 오디오 스트림을 동시에 처리하며, 텍스트 설명을 통해 세부적인 음향 효과를 조정할 수 있다. 로컬에서 사용할때는 20GB 이상의 VRAM을 요구하는 고성능 GPU(예: RTX 3090 또는 4090)을 추천.
결론
HunyuanVideo-Foley는 텐센트의 AI 기술력이 콘텐츠 창작 분야에서 어떻게 적용될 수 있는지를 보여주는 대표적인 사례. 2025년 8월 29일 현재, 이 프레임워크는 글로벌 창작자들에게 새로운 가능성을 열어주며, 오픈소스 커뮤니티의 활발한 참여를 유도하고 있다.
