1-3. V2V (Video-to-Video) 비디오를 입력해서 비디오를 생성하기

Video-to-Video는 입력된 영상의 움직임, 구조, 그리고 장면 정보를 유지하면서도, 새로운 스타일이나 특성을 부여해 전혀 다른 느낌의 영상으로 변환하는 기술입니다. 최근에는 모델의 발전으로 인해 단순한 필터 수준을 넘어, 사실적인 합성이나 특정 화풍·조명·질감 등을 재현할 수 있을 정도로 발전하고 있습니다. 현재(20205,02,23) Video-to-Video를 지원하는 플랫폼은 OpenAI Sora와 RunwayML Gen-3 Alpha 입니다.

주요 기능과 특징:

스타일 변환
실사 영상을 애니메이션으로 변환 하거나 특정 아티스트 스타일로 변경합니다.

2. 품질 향상 저해상도 영상을 고해상도로 업스케일링 합니다.

3. 시퀀스 확장 영상의 듀레이션이나 포멧을 확장하고 다른 장면과 자연스러운 연결을 합니다.

4. 콘텐츠 수정 표정 이나 대사에 따른 입모양을 제어 합니다.

OpenAI Sora의 특징

시공간적 일관성과 물리적 정확성이 어느정도 있습니다.

비교적 긴 시간의 영상도 안정적으로 처리

복잡한 장면 전환도 자연스럽게 처리합니다.

RunwayML Gen-3 Alpha/Alpha Turbo의 특징

빠른 처리 속도 (특히 Alpha Turbo)를 자랑합니다.

다양한 스타일 프리셋 제공 합니다.

Act-one등 특화된 기능이 있습니다.

현재의 한계

매우 긴 영상은 지원하고 있지 않습니다.

일관성을 잃을 수 있습니다.

복잡한 인터랙션이 있는 장면에서는 부정확합니다.

계산자원 요구량이 큽니다.

각 플랫폼에서의 Video-to-Video 예시

OpenAI Sora: Remix Sora의 Remix 기능은 사용자가 기존 영상을 자연어 명령을 통해 손쉽게 변형하거나 재구성할 수 있도록 도와주는 Video-to-Video 기술입니다.

Sora의 하단 프롬프트 입력창에서 + 아이콘을 누른 후 준비한 영상을 업로드 합니다. 이 튜토리얼에서는 Choose from library를 선택해서 기존에 만들었던 영상을 선택했습니다.

Remix를 적용할 영상이 선택된 이미지 입니다.

Remix의 강도를 설정할 수 있습니다. Strong, Mild, Subtle, Custom등의 강도를 제공하고 있습니다. 기본 설정은 Strong입니다.

Custom Strength의 경우에는 아래의 이미지와 같은 단계를 선택할 수 있습니다.

영상을 어떤 스타일로 바꿀지 아래의 이미지와 같이 프롬프트 입력창에 프롬프트를 입력해서 결정합니다.

The entire scene is rendered in a Van Gogh-inspired oil painting style, with thick swirling brush strokes, vibrant impasto textures, and warm golden lighting.

프롬프트를 통해서 영상의 배경이 반 고흐 스타일의 유화 느낌의 두꺼운 붓터치가 적용된 것을 확인할 수 있습니다.

아래의 이미지는 생성된 영상입니다.

아래의 이미지는 기존에 생성했던 수영장에 다이빙하는 호랑이의 수중 영상 입니다. 이 영상을 디즈니 스타일의 3D 애니메이션 스타일로 변환하도록 하겠습니다. 프롬프트는 이미지의 하단과 같이 작성했습니다.

Transform the video into a high-quality Disney-style 3D animation with smooth, expressive character animation, vibrant colors, and detailed textures. Enhance facial expressions with exaggerated yet natural movements, add soft global illumination, and maintain a cinematic

기존의 사실적인 영상에 프롬프트를 통해서 입력한 스타일이 적용된 영상이 생성된 이미지 입니다.

기존의 사실적인 영상이 3D 애니메이션스타일로 모델링, 쉐이딩 그리고 라이팅이 적용된 것을 확인하실 수 있습니다.

RunwayML Gen-3 Alpha 변환하고자 하는 영상을 업로드한 후, 원하는 스타일이나 분위기를 설명하는 텍스트 프롬프트를 입력하여 영상을 재구성할 수 있습니다. 예를 들어, "수채화 그림 스타일" 또는 "사이버펑크 도시 배경"과 같은 프롬프트를 통해 다양한 시각적 변화를 줄 수 있습니다. Sora의 Remix Strength와 마찬가지로 구조 변환 슬라이더(Structure Transformation Slider)를 통해 원본 영상의 구조를 얼마나 유지할지 조절할 수 있습니다. 낮은 값은 원본 영상의 구조를 더 많이 유지하며, 높은 값은 원본 영상에서 더 벗어난 창의적인 변환을 가능하게 합니다. 고정 시드에 대해서는 생성 이미지 및 영상에서 기본적인 사항이기 때문에 따로 설명은 생략하겠습니다.

아래의 이미지와 같이 인풋으로 사용할 영상을 업로드 합니다. Gen-3 Alpha는 1280x768 및 768x1280의 해상도를 지원합니다. 현재 인풋으로 사용하는 영상이 FHD(1920 x 1080)이기 때문에 사용하기 위해서 자동으로 크롭을 하게 됩니다.

1280 x 768에 맞게 영상이 크롭 되었습니다. 그리고 이 비디오를 생성하는 최소 금액인 10초 분량의 비디오에 대해 요금이 부과되는 것에 대한 알림이 나타납니다.

시도한 스타일 변환에 대한 프롬프트를 입력합니다. 사용한 프롬프트는 이 이미지의 하단에 첨부 했습니다. 프롬프트를 입력하기 전에는 Generate 버튼이 활성화 되지 않습니다.

Made of glass, 3D render with light refraction, in the style of translucent glass, abstract glass sculpture, high key lighting.

옵션을 선택하면 구조 변환 슬라이더(Structure Transform Slider)와 고정 시드(Fixed Seed)등의 옵션등이 나타납니다. 기본적으로 구조 변환 슬라이더의 값은 3입니다. 일단 3으로 진행을 합니다.

스타일 변환을 해서 생성된 영상의 한 프레임 입니다. 의도 한대로 어느 정도 묘사가 되기는 했지만 알아보기가 힘들기 때문에 구조 변환 슬라이더를 통해서 조정하도록 하겠습니다.

좀더 원본의 형태를 유지하기 위해서 값을 1로 설정을 합니다.

어느 정도 원본의 형태를 유지하면서 스타일이 변형된 결과가 나왔습니다.

이번에는 OpenAI Sora의 Remix 예시와 비슷하게 3D Cartoon 스타일의 변환을 적용해 보도록 하겠습니다. 프롬프트는 하단의 이미지 밑에 첨부 했습니다.

3D cartoon, professionally rendered with volumetric lighting and shadows, with underwater elegance, flowing gown, and ethereal lighting in the style of professional 3D render, expressive features, 3D ray traced lighting and shadows, high fidelity 3D cartoon render.

스타일이 적용되어 생성된 이미지의 한 프레임 입니다. 3D 렌더링 느낌보다는 셀 애니메이션 느낌이 더 나기 때문에 구조 변환 슬라이더를 조정하도록 하겠습니다.

마찬가지로 구조 변환 슬라이더의 값을 1로 적용을 하도록 하겠습니다.

적당하게 3D 렌더링 느낌이 나는 영상으로 생성이 되었습니다. 머리카락 끝 부분에서 손가락으로 변형되는 아티팩트들이 있으나(생성 AI 이미지 / 영상 모델에서 일반적으로 나타나는 현상입니다. 이런 부분들이 후반작업에서 처리하면 됩니다.) 전반적으로 의도 한대로 표현이 되었습니다.

요약

최근 기술의 발전으로 비디오 콘텐츠 제작 방식이 혁신적으로 변화하고 있습니다. 과거에는 전문적인 장비와 긴 시간이 필요했으나, 이제는 텍스트 또는 이미지 입력만으로도 영상 생성이 어느 정도 가능해지고 있습니다. 특히 Text-to-Video(T2V), Image-to-Video(I2V), Video-to-Video(V2V) 기술이 발전하며, 콘텐츠 제작의 접근성을 대폭이 확대되었습니다.

Text-to-Video는 텍스트 입력을 기반으로 영상을 생성하는 기술로, 자연어 설명을 분석해 장면을 구성하고 움직임을 생성합니다. 이를 통해 스토리보드 제작, 광고, 애니메이션 등 다양한 분야에서 활용되고 있습니다. OpenAI의 Sora, RunwayML의 Gen-3, Google DeepMind의 Veo2 등 다양한 플랫폼이 존재하며, 프롬프트 엔지니어링이 중요한 역할을 합니다.

Image-to-Video는 단일 이미지를 기반으로 자연스러운 동영상을 생성하는 기술입니다. 이는 스타일 유지 및 특정 대상의 재현에서 강점을 가지며, 애니메이션 제작 및 디지털 마케팅 콘텐츠 생성에 적합합니다.

Video-2-Video는 기존 영상을 기반으로 스타일을 변환하거나 품질을 향상시키는 기술로, OpenAI Sora와 RunwayML Gen-3 Alpha가 대표적입니다. 이 기술을 활용하면 현실 영상을 애니메이션 스타일로 변환하거나 특정 아트 스타일을 적용할 수 있습니다.

AI 기반 비디오 생성 기술은 창작자의 아이디어를 빠르고 직관적으로 시각화하며, 기존의 제작 비용과 시간을 절감할 수 있도록 돕고 있습니다.

다음 챕터 에서는 Image-to-Video를 위한 인풋 이미지를 만드는 것에 대해서 설명하도록 하겠습니다.