Image-to-Video는 단일 이미지나 여러 장의 이미지를 입력해 자연스러운 동영상을 생성하는 생성 AI 기술입니다. 이 기술은 딥러닝 모델을 사용하여 이미지에 담긴 객체들의 움직임을 예측하고 생성합니다. 모델은 수많은 이미지와 영상 데이터로 학습되어 있기에 물리 법칙과 자연스러운 움직임의 패턴을 파악할 수 있습니다. 모델은 입력된 이미지를 분석하여 각 객체의 특성을 파악하고, 시간의 흐름에 따른 자연스러운 변화를 만들어냅니다.
주요 특징:
1.
시간적 일관성
생성된 영상에서 객체들은 시간의 흐름에 따라 일관된 움직임을 보입니다. 예를 들어, 강물이 흐르는 장면에서는 물의 흐름이 자연스럽게 연결됩니다.
2.
공간적 정확성
객체들 간의 상호작용과 원근감이 현실적으로 표현됩니다. 그림자, 반사, 조명 등의 요소들도 움직임에 따라 적절히 변화합니다.
3.
컨텍스트 이해
AI는 이미지의 전반적인 상황과 맥락을 이해하여 적절한 움직임을 생성합니다.
Text-to-Video 와 비교한 Image-to-Video의 장점:
1.
시각적 정확성
Text-to-Video는 텍스트 설명만으로 영상을 생성하기 때문에 사용자가 원하는 정확한 시각적 결과를 얻기 어려울 수 있습니다. Image-to-Video는 이미 원하는 시각적 요소가 이미지에 담겨있어, 사용자의 의도를 더 정확하게 반영할 수 있습니다.
2.
일관된 스타일 유지
Text-to-Video는 동일한 프롬프트를 사용해도 매번 다른 스타일의 결과물이 나올 수 있습니다. Image-to-Video는 입력 이미지의 스타일과 특성을 그대로 유지하면서 움직임만 더해주므로 일관된 결과물을 얻을 수 있습니다.
3.
세부 사항의 통제
Text-to-Video는 세부적인 요소들을 텍스트로 모두 설명하기 어렵습니다. Image-to-Video는 이미지에 포함된 모든 세부 요소들(의상 디테일, 배경 요소, 조명 등)이 자동으로 반영됩니다.
4.
프롬프트 엔지니어링 부담 감소
Text-to-Video는 원하는 결과를 얻기 위해 복잡한 프롬프트 작성이 필요할 수 있습니다. Image-to-Video는 시각적 참조가 이미 제공되므로 복잡한 프롬프트 없이도 원하는 결과를 얻을 수 있습니다.
5.
특정 대상의 정확한 재현
Text-to-Video로는 특정 인물이나 장소를 정확하게 묘사하기 어렵습니다. Image-to-Video는 입력 이미지의 특정 대상을 그대로 활용할 수 있습니다.
6.
작업 시간 단축
Text-to-Video는 여러 번의 시행착오가 필요할 수 있습니다. Image-to-Video는 원하는 비주얼이 이미 확보된 상태에서 시작하므로 더 빠른 결과물 도출이 가능합니다.
제한사항:
1.
입력 이미지의 품질이 결과물의 품질을 좌우합니다.
2.
이미지에 없는 새로운 요소를 추가하기 어렵습니다. (최근에는 기술의 발전으로 어느 정도 가능하게 되어가고 있습니다.(예: Kling AI의 Elements, HailuoAI의 Subject Reference등)
3.
이미지의 구도나 주요 요소를 크게 변경하기 어렵습니다.
이러한 Image-to-Video의 특성을 고려할 때, Image-to-Video는 기존 이미지나 아트-워크를 기반으로 한 애니메이션 제작, 제품 시각화, 광고 콘텐츠 제작 등에 더욱 효과적으로 활용될 수 있습니다. 그리고 Image-to-Video는 현재 생성 AI 비디오 모델을 사용하는 영상 제작에서 가장 자주 사용되는 방법입니다.
각 플랫폼에서의 Image-to-Video 예시
OpenAI Sora
먼저 인풋으로 사용할 이미지를 준비하도록 합니다. 필자의 경우 이미지를 생서할 때 Midjourney, Google DeepMind의 ImageFX, Black Forest Lab의 Flux등을 주로 사용하고 있는데, 프로젝트의 성격과 제작할 이미지에 따라서 선택을 합니다. 아래의 이미지는 Midjourney를 사용해서 이미지를 만들었습니다.
이미지는 스니커즈의 역동성과 미래지향적 감성을 표현하기 위해서 만든 결과물입니다. 붉고 푸른 네온 조명이 만들어내는 강렬한 대비와 모션 블러를 통해 속도감을 표현했고, 로고를 부각해 브랜드 아이덴티티를 강화했습니다. Image-to-Video로 비디오 모델에 인풋으로 입력해서 에너지 넘치는 광고 영상의 한 장면처럼 보이도록 의도 했습니다. 그리고 굳이 스니커즈같은 프로덕트를 선택한 이유는 OpenAI Sora와 같은 플랫폼에서 민감 콘텐츠(폭력, 차별, 외설 등)으로 분류되기 낮은 가능성을 가지고 있기 때문입니다. OpenAI Sora가 가장 강력한 정책을 가지고 있고 그다음에 Google DeepMind Veo2, RunwayML Gen-3 Alpha, LumaAI Dream Machine 등의 모델들이 콘텐츠에 대한 필터링을 강하게 하고 있습니다. 상대적으로 KuaiShou Kling AI, Minimax Hailuoai등의 중국에서 개발된 모델들은 느슨한 편입니다.
A dynamic shot of a futuristic running sneaker, slightly angled with motion blur background, neon lighting accents, ultra-detailed, high contrast, cinematic product shot, professional sportswear ad
1.
A dynamic shot of a futuristic running sneaker
‘역동적(dynamic) 촬영’과 ‘미래지향적(futuristic) 러닝화’를 결합해, 제품이 속도감 있고 첨단 기술을 반영한 분위기를 갖도록 지시했습니다. 스니커즈의 혁신성과 퍼포먼스를 부각시키는 핵심 구문입니다.
2.
Slightly angled
촬영 구도를 구체적으로 지정해, 제품이 단조롭게 정면 또는 측면으로만 보이지 않도록 만듭니다. 약간 기울어진 각도에서 보여주어 시각적 임팩트를 높이고, 입체감을 부여했습니다.
3.
With motion blur background
배경에 모션 블러를 사용함으로써, 제품이 빠른 속도로 움직이는 듯한 효과와 역동성을 강조합니다.
정지된 이미지임에도 속도감과 에너지를 전달하는 중요한 디테일입니다.
4.
Neon lighting accents
강렬한 네온 조명 포인트를 통해 ‘미래지향적’이면서도 눈길을 끄는 이미지를 완성합니다. 스니커즈 표면이나 주변 분위기에 화려한 색채를 부여해 광고 비주얼 효과를 강화합니다.
5.
Ultra-detailed, high contrast
세밀함(ultra-detailed)과 높은 콘트라스트를 요구하여, 신발의 질감·형태·색상 등 중요한 디테일이 돋보이도록 합니다. 제품 홍보 이미지에 적합한 ‘선명함’을 극대화한다는 의미입니다.
6.
Cinematic product shot
영화적(cinematic) 연출 기법을 원하는 것으로, 전문 광고·프로모션에서 볼 수 있는 고급스럽고 극적인 분위기를 구현하도록 지시합니다.
7.
Professional sportswear ad
이 모든 요소가 최종적으로 스포츠웨어 광고를 연상시키는 장면을 목표로 합니다. 고품질의 완성도와 명확한 상업적 용도를 나타냅니다.
4개의 이미지 중에서 3개의 이미지는 사람의 발목 부분이 나오기 때문에 영상의 결과물에 아티팩트가 생길 것 같아서 배제 하고 좌측 하단의 아래의 이미지를 선택 했습니다.
OpenAI Sora의 프롬프트 입력창에서 + 아이콘을 눌러서 준비한 이미지를 업로드 합니다. Sora에서는 기존의 영상을 다시 인풋으로 넣을 수 있습니다. 이 부분은 1-3섹션에서 다시 설명하도록 하겠습니다.
아래의 이미지는 Midjourney에서 만든 이미지를 인풋으로 넣어서 생성된 영상입니다. 이미지 이외에 영상을 설명하기 위한 별다른 프롬프트는 없습니다. 대부분의 영상에 대한 설명은 이미지를 통해서 설명이 되기 때문에 장면을 설명할 별도의 프롬프트는 그다지 필요하지 않습니다.이것은 다른 모든 플랫폼에서도 동일합니다. 그래서 Image-to-Video 작업을 할 때 처음에는 이미지 인풋만으로 결과를 본 모자라거나 별도로 제어가 필요할 경우 텍스트 프롬프트로 제어를 합니다. Sora에서는 이미지를 입력하면 Image Prompt로 명시되기도 합니다.
KuaiShou Kling AI
Midjourney에서 Kling AI의 인풋으로 사용할 이미지를 생성 했습니다. 이 이미지들은 판타지 세계의 북방의 산악 지형을 배경으로 거대한 늑대를 타고 돌진하는 오크 전사의 역동성과 세계관을 표현하기 위해 만들어졌습니다. Kling AI에 입력함으로써, 보다 영상적인 판타지 장르의 스토리를 구성하고자 했습니다. 거친 오크 전사와 늑대의 조합은 북유럽풍 판타지 미학을 연상시키며, 다양한 후속 편집을 통해 새로운 시나리오나 스토리텔링 구상에 활용할 수 있을 것입니다.
Orc riding a monster wolf running in the mountains, cinematic, motion blur
1.
Orc
주요 피사체는 오크(Orc)로, 판타지 장르에서 흔히 등장하는 종족을 의미함. 일반적으로 근육질의 거대한 체격, 초록색 피부, 사나운 표정, 중세 판타지 갑옷과 무기를 갖춘 전사로 묘사됩니다.이 단어만으로도 전투적인 분위기와 판타지 세계관을 강하게 암시할 수 있습니다.
2.
Riding a monster wolf
오크가 단순히 서 있거나 싸우는 것이 아니라, 거대한 늑대(monster wolf)를 타고 있음을 강조 했습니다. ‘Monster wolf’라는 표현은 일반적인 늑대보다 훨씬 크고 맹수 같은 느낌을 부여하여 위압적이고 강렬한 이미지를 형성합니다. 오크와 늑대의 조합은 야성적이며 강한 힘을 상징하는 요소가 될 수 있습니다.
3.
Running in the mountains
‘산속에서 달리는(running in the mountains)’이라는 설정을 통해 배경과 환경을 구체화. 험준한 지형에서 달리는 장면이므로, 먼지, 눈보라, 바위 조각이 튀는 등의 생동감 있는 액션 연출이 가능합니다. 단순히 정적인 포즈가 아닌 역동적인 움직임을 강조하는 요소가 될 수 있습니다.
4.
Cinematic
‘영화적(cinematic)’이라는 표현을 추가함으로써, 단순한 일러스트가 아니라 고퀄리티의 영화 스타일 장면을 요구할 수 있습니다. 일반적으로 극적인 조명, 깊이 있는 색감, 강렬한 구도, 사실적인 질감 등이 강조됩니다. 이를 통해 단순한 판타지 삽화가 아니라 고퀄리티의 3D 애니메이션, 게임 시네마틱 트레일러 같은 분위기를 표현할 수 있는 가능성이 생깁니다.
5.
Motion blur
‘모션 블러(Motion blur)’는 속도감과 역동성을 극대화하는 중요한 요소. 빠르게 달리는 느낌을 강조하며, 배경과 주변 물체가 흐려져 강한 속도감과 긴박감을 부여합니다. 영화적 연출에서 많이 활용되는 기법으로, 장면이 더욱 생생하고 몰입감 있게 보이도록 만듭니다.
최종적으로 구도나 해부학적인 묘사가 가장 그럴듯한 아래의 이미지를 선택했습니다.
Kling AI의 사이드바에서 Image to Video 탭을 선택하고 Frames 탭에서 Start 프레임에 선택한 이미지를 업로드 합니다. 영상을 좀 더 역동적으로 표현하기 위해서 Handheld같은 촬영 용어를 프롬프트에 입력했습니다.
아래의 이미지는 Midjourney에서 만든 이미지를 Kling AI에 인풋으로 넣어서 생성된 영상의 한 프레임 입니다. 오크가 거대한 늑대의 등에 올라타 라이딩을 하는 모션이 어느정도 표현이 되었습니다. 늑대의 경우에는 개과 동물들이 질주할 때 등이 강하게 굽혀졌다 펴지는 반복되는 동작과 뒷다리가 강하게 밀어주는 역할을 하고 앞다리는 착지 시 충격을 흡수하는 등의 동작이 어느 정도 잘 표현이 되었다고 생각합니다.
RunwayML Gen-3 Alpha
이 이미지는 RunwayML Gen-3 Alpha 를 활용해 미래형 자동차의 시네마틱 영상을 제작하기 위해 만들었습니다. 차량 디자인은 SF 스타일의 공기역학적 형태를 강조했으며, 하부 메커니즘이 드러나도록 구성해 기술적 디테일을 강조했습니다. 조명과 반사광을 활용해 미래지향적이고 하이엔드한 분위기를 조성했으며, 정적인 상태에서 차량의 존재감을 강조하는 로우샷 구도를 선택했습니다. 이를 통해 이후 AI 기반 영상 제작 과정에서 주행 애니메이션, 속도감 연출, 조명 변화를 자연스럽게 추가할 수 있도록 했습니다.
A near-future concept car with a straight line and a variety of mechanical components is in a garage with a minimal design of white walls.
1.
A near-future concept car
근미래적(Near-future) 콘셉트 카라는 설정을 통해, 현재 존재하는 차량이 아니라 SF적인 요소가 가미된 혁신적인 디자인을 가진 자동차임을 명시 했습니다. 기존 자동차보다 디자인이 첨단화되고, 독특한 구조를 가질 가능성이 높게 했습니다.
2.
With a straight line and a variety of mechanical components
‘Straight line(직선)’을 강조한 디자인 → 차량의 실루엣이 각지고, 미래적인 느낌을 주는 각진 구조를 가질 가능성이 높게 했습니다. ‘A variety of mechanical components(다양한 기계적 요소)’ → 차량 내부의 하부 메커니즘, 서스펜션, 전기 모터, 외부 기계 장치 등이 노출될 가능성을 높혔습니다.
3.
Is in a garage
차량이 도로 위가 아닌 실내 공간(차고)에 위치하고 있음을 명확히 설정했습니다. 실험실, 연구소, 하이엔드 디자인 스튜디오 같은 고급스러운 배경이 연상 되도록 했습니다.
4.
With a minimal design of white walls
차고는 미니멀한 디자인(Minimal design)의 흰색 벽을 가진 차고로 연출했습니다. 미래적이고 깔끔한 느낌이 연출 되도록 했으며, 광원(조명) 효과가 강조될 가능성이 높혀서, 차량의 반사광 및 표면 질감이 더욱 두드러지게 유도했습니다..
몇가지 만들어진 이미지 중에서 최종적으로 아래와 같은 이미지를 선택했습니다.
RunwyML Gen-3 Alpha에서도 대부분의 기능은 사이드바에 있습니다. 선택한 이미지를 임포트하고 일단은 별다른 프롬프트 없이 이미지를 이미지 프롬프트 삼아서 영상을 추론 시키도록 하겠습니다. 그리고 First Frame을 선택 했습니다. (기본 설정입니다.)
아래의 이미지는 Midjourney에서 만든 이미지를 RunwayML Gen-3에 인풋으로 넣어서 생성된 영상의 한 프레임 입니다. 이미지가 주는 정보를 통해서 카메라가 자동차를 중심으로 Arc Shot으로 회전하는 영상을 만들었습니다.
프롬프트로 다른 카메라 워크를 시도해 보도록 하겠습니다. Dolly In으로 카메라를 천천히 자동차 쪽으로 접근 시키도록 했습니다. 그리고 업로드한 인풋 이미지를 Last 프레임으로 사용해서 멀리서부터 카메라가 Dolly In으로 접근해서 인풋 이미지와 같은 구도가 되었을 때 멈추도록 했습니다.
아래의 이미지는 인풋 이미지와 카메라 워크에 관련된 프롬프트를 통해서 생성된 영상입니다.
LumaAI Dream Machine(Ray2)
아래의 이미지들은 LumaAI의 Image-to-Video를 위한 인풋 이미지로 Midjourney에서 만든 빠르게 도심을 질주하는 거북이의 역동적인 모습을 표현한 이미지 입니다. 일반적으로 느리고 조용한 존재로 인식되는 거북이를 반전된 속도감과 강렬한 연출로 표현하려고 했습니다. 밤의 네온 사인이 반짝이는 도심을 배경으로, 거북이들은 공중을 날며 빛의 궤적을 남기고 Snorricam 기법을 활용해 카메라가 거북이에 고정된 듯한 시점을 유지하며, 거북이의 움직임을 따라가는 생생한 장면을 연출하도록 유도했습니다. 그리고 이 아이디어는 책을 쓰기 위해서 예시 이미지를 만드는 것을 보고 있던 이제 초등학교 4학년이 되는 둘째 아들이 준 아이디어로 부터 출발 했습니다.
A high-speed flying tortoise racing through a neon-lit city at night, Snorricam perspective, wide-angle shot
1.
A high-speed flying tortoise
"High-speed" (고속의) 거북이가 비정상적으로 빠른 속도로 이동하고 있음을 강조 했습니다.
"Flying tortoise" (나는 거북이) 현실에서는 불가능한 초현실적(Surreal) 요소를 추가해 흥미로운 비주얼을 표현하도록 했습니다.
2.
Racing through a neon-lit city at night
"Racing through" (질주하다, 빠르게 이동하다) 단순한 비행이 아니라 속도감과 긴박함을 강조 했습니다. "A neon-lit city at night" (네온 조명으로 빛나는 도시) 야간의 화려한 도시 환경을 배경으로 하기위한 표현입니다.
3.
Snorricam perspective
"Snorricam"은 카메라가 피사체(거북이)에 고정되어 움직이는 촬영 기법 입니다. 이는 거북이의 1인칭 시점과 비슷한 다이내믹한 화면을 연출할 가능성이 높습니다. 주로 영화에서 강렬한 몰입감을 주기 위해 사용되며, 이 경우 거북이가 직접 움직이는 느낌을 극대화하는 효과를 기대할 수 있습니다.
4.
Wide-angle shot
광각 렌즈(Wide-angle) 사용을 지시하여 화면에 더 많은 요소를 담고, 공간의 깊이감을 강조 합니다. 속도감을 더 강하게 표현할 수 있도록 원근감이 극대화 된 이미지를 생성할 가능성이 큽니다.
여러가지 이미지를 생성하고 그중에서 아래의 이미지를 선택 했습니다. 아무래도 육지 거북 보다는 바다 거북이 야간의 도심을 나는 것에 어울릴 것 같고 배경에 적당한 모션블러가 적용이 되어 도심을 빠르게 비행하는 것 처럼 표현될 것으로 보이기 때문입니다.
Dream Machine의 프롬프트 입력 창에서 사진 모양의 아이콘을 클릭해 선택한 이미지를 업로드 합니다.
Dream Machine에서 Ray2를 선택하려면 아래의 이미지와 같이 설정에서 Ray2를 선택해야 합니다. 새로운 모델로 업데이트가 된 후로 기본으로 Ray2가 선택되어 있지만 End Frame을 선택하면 이전 모델인 Ray 1.6으로 전환됩니다. Ray2가 공식적으로 발표가 되면서 그동안의 Dream Machine의 비디오 생성 모델이 Ray 1.6인 것으로 밝혀졌습니다. 현재(2025.02.23)기준으로 얼마 전에서야 Ray2에서 Image-to-Video 기능이 지원 되었습니다, 하지만 아직 제대로 된 Keyframe은 안 되고 있습니다. 하지만 빠른 시일에 지원될 것이라 유추 됩니다.
아래의 이미지는 Dream Machine의 Ray2에서 인풋 이미지를 바탕으로 생성된 영상의 한 프레임 입니다.
Google DeepMind Veo2
이번에는 Midjourney 대신에 Google DeepMind의 ImageFX를 이용해서 Veo2의 Image-to-Video의 인풋에 사용할 이미지를 만들었습니다. 네온 조명이 배경을 감싸며 인물의 분위기를 강조하도록 했으며 시네마틱한 조명과 부드러운 심도 표현(Shallow Depth of Field)을 활용해 깊이 감을 더하도록 했습니다.
A portrait of an beautiful Asian woman with neon lights in the background, shallow depth of field
1.
A portrait of a beautiful Asian woman
"A portrait of" (초상화, 인물 사진) 인물 중심의 구도를 지정, 얼굴과 표정이 주요 초점이 되도록 했습니다. "A beautiful Asian woman" (아름다운 아시아 여성) 모델의 외형적 특징을 강조하며, 주로 부드러운 피부 질감, 정교한 얼굴 디테일, 세련된 분위기가 연출될 가능성을 높혔습니다.
2.
With neon lights in the background
"Neon lights" (네온 조명) 도시적이고 또는 입체적인 분위기를 조성할 가능성을 높혀줍니다. "In the background" (배경에 위치함) 피사체(여성)와 배경 요소(네온 조명)의 위치 관계를 명확히 했습니다.
일반적인 실내/자연광 배경이 아닌, 도시적이거나 세련된 미래적 무드를 형성할 수 있습니다.
3.
Shallow depth of field
"Shallow depth of field" (얕은 피사계 심도, 즉 배경이 흐려짐) 인물을 더욱 강조하고, 배경을 부드럽게 흐리게 만들어 고급스럽고 집중도가 높은 효과를 연출하도록 했습니다. 이는 주로 프로페셔널 인물 사진에서 활용되는 기법이며, 영화적이고 감성적인 분위기를 더할 수 있습니다. 배경에 있는 네온 조명이 흐려지면서 빛망울(Bokeh) 효과가 발생하여 더욱 분위기 있는 이미지가 생성될 가능성이 있습니다.
전체 이미지는 아래와 같습니다. 기존의 테스트와 다르게 인물을 테스트 하기 위해서 9:16 포트레이트 비율로 이미지를 생성했습니다. 생성 AI 이미지/비디오 모델에서 비율에 따라서 생성되는 이미지의 디테일이 달라질 수 있습니다. 인물을 표현하는데 있어서 16:9에 비해서 3:4 또는 9:16의 비율이 더 유리할 수 있습니다. 인물이 픽셀에서 차지하는 비율이 더 커지고, 픽셀이 많아질수록 여러가지 디테일이 표현될 가능성이 높아집니다
현재(2025.02.23)는 Veo2에서 Image-to-Video를 하기 위해서는 여러가지 모델을 제공하는 fal.ai를 사용할 수밖에 없습니다. Fal.ai의 Veo2 Image-to-Video API를 사용하는 링크는 https://fal.ai/models/fal-ai/veo2/image-to-video 입니다. Fal.ai의 가입과 플랜은 사이트의 가이드를 따라서 진행하면 되는 기초적인 사항이기 때문에 이후에 추가로 다루도록 하겠습니다.
사용법은 간단합니다. 준비된 이미지를 Image Url에 등록 해주면 됩니다. 프롬프트는 Prompt 텍스트 필드에 입력하면 됩니다. 기본적으로 프롬프트 없이 이미지 프롬프트 만으로 영상을 생성하도록 하겠습니다. Freepik에서는 최대 5초 생성이 가능한 반번 Fal.ai에서는 최대 8초로 영상을 생성할 수 있습니다.
아래의 이미지는 인풋 이미지로부터 생성된 영상의 한 프레임 입니다. Veo2는 다른 플랫폼들의 모델들에 비해서 이미지를 조형하기 위해서 좀 더 많은 프롬프트를 작성해야 하는 부분이 있습니다. 하지만 성능 좋은 이미지 모델을 통해서 최대한 이미지를 만들고 이것을 인풋 프럼프트로 사용하면 Veo2도 여타 다른 플랫폼들의 비디오 모델과 비슷하게 좀 더 수월하게 영상을 생성할 수 있습니다.


















