1-1. 비디오 생성 AI 모델과 서비스에 대한 설명

최근 AI 기술의 발전은 비디오 콘텐츠 제작의 방식을 혁신적으로 변화시키고 있습니다. 과거에는 전문적인 장비와 많은 시간이 필요했던 영상 제작 과정이, 이제는 텍스트나 이미지와 같은 간단한 입력만으로도 가능 해졌습니다. 특히, 텍스트를 기반으로 영상을 생성하는 T2V(Text-to-Video), 이미지를 비디오로 변환시키는 I2V (Image-to-Video) 그리고 영상을 다른 스타일로 변환 시켜주는 V2V (Video-to-Video)기술은 콘텐츠 제작의 접근성을 대폭 확대하며, 창의적 작업의 새로운 가능성을 열어주고 있습니다.

생성 AI 비디오 모델은 단순히 사용자 경험을 향상시키는 데 그치지 않고, 마케팅, 교육, 엔터테인먼트 등 다양한 분야에서 혁신적인 도구로 자리 잡고 있습니다. 이 기술을 통해 사용자는 자신의 아이디어를 더 빠르고 직관적으로 시각화 할 수 있으며, 기존의 비디오 제작 과정에서 발생하는 시간과 비용을 절감할 수 있습니다.

이 글에서는 현재 가장 대표적인 생성형 AI 영상 플랫폼들 OpenAI의 Sora, KuaiShou의 Kling AI, RunwayML의 Gen-3, LumaAI의 Dream Machine(Ray2)그리고 최근 API통해서 공개된 Google DeepMind의 Veo2를 중심으로 설명을 하도록 하겠습니다.

1-1. T2V (Text-to-Video) 텍스트 입력으로 비디오를 생성

1-1-1 각 플랫폼의 Text-to-Video UI

1-1-2 Text-to-Video 프롬프트 예시

요약

1-1. T2V (Text-to-Video) 텍스트 입력으로 비디오를 생성

Text-to-Video 기술은 자연어 설명을 기반으로 동영상을 생성하는 기술입니다. 2025년 현재, 이 분야는 Google, Meta등의 거대 테크기업과 OpenAI등의 스타트업들에 의해서 활발한 연구와 발전이 이루어지고 있습니다. 이 기술은 대규모 언어 모델(LLM)과 생성형 AI를 결합하여 작동합니다. 텍스트 입력을 분석하여 장면의 구성 요소, 움직임, 시각적 특성 등을 파악하고, 이를 바탕으로 연속된 프레임을 생성합니다.

주요 특징:

자유로운 창작성:

현실에 존재하지 않는 장면도 텍스트 설명만으로 생성 가능합니다.

추상적인 개념을 시각화하여 표현 가능합니다.

다양한 스타일과 장르의 영상을 생성합니다.

세부적인 제어:

텍스트를 통해 장면의 구도, 색감, 분위기 등을 상세히 지정할 수 있습니다.

등장 객체의 행동과 상호작용을 자세히 기술 가능합니다.

영상의 속도, 전환 효과 등을 조절할 수 있습니다.

응용 분야:

스토리보드 제작 및 개념 시각화

애니메이션과 특수효과 제작

광고 및 디지털 마케팅 콘텐츠 생성

게임 컷신 제작

디지털 마케팅용 영상 제작

가상 캐릭터 애니메이션

제한사항:

기술적 제약:

긴 시간의 영상 생성 시 일관성을 유지하기 어렵습니다.

복잡한 인과관계나 물리법칙 표현에 한계가 있습니다.

고해상도 영상을 생성하는데 제약이 있습니다.

프롬프트 의존성:

정확한 결과를 얻기 위해 상세한 프롬프트 작성 필요합니다.

의도하지 않은 결과물이 나올 수 있습니다.

언어적 모호성으로 인한 오해석 가능성이 있습니다.

OpenAI Sora, KuaiShou의 Kling AI, RunwayML의 Gen-3, LumaAI의 Dream Machine(Ray2) 그리고 Google DeepMind의 Veo2 등 주요 생성형 AI 영상 플랫폼은 텍스트, 이미지 그리고 영상을 기반으로 AI 영상을 생성하며, 사용자 친화적인 UI를 제공합니다. 그중 Text-to-Video는 사용자가 간단한 텍스트 프롬프트를 입력하여 장면, 스타일, 색감 등을 설정할 수 있으며, 각 플랫폼의 모델은 이를 분석해 시각적 표현을 구현합니다. 또한 비율, 해상도, 길이 및 여러가지 옵션 기능들로 다양한 출력과 결과물 수정 및 확장 기능을 지원해 사용자가 원하는 결과를 쉽게 얻을 수 있게 합니다. 이러한 플랫폼들의 공통점은 쉬운 접근성과 효율성을 중심으로 하여 비전문가도 얼마든지 쉽게 창의적인 비디오 제작이 가능하도록 돕는 데 초점을 맞추고 있습니다.

1-1-1 각 플랫폼의 Text-to-Video UI

OpenAI Sora Sora의 사이트 주소는 https://sora.com/ 입니다. 사용하기 위해서는 가입과 플랜을 선택해서 구동이 필요한데 이런 부분들이 기초적인 것이기 때문에 여기서는 굳이 설명하지 않도록 하겠습니다. 나머지 플랫폼에 대해서도 설명을 생략하도록 하겠습니다. 가입과 플랜을 선택하면 아래와 같은 화면을 볼 수 있습니다.

실제적으로 Text-to-Video를 실행시키기 위한 것은 하단의 텍스트 프롬프트창에서 이루어집니다. 여기에 있는 텍스트 필드에 생성하고자 하는 영상을 설명하는 프롬프트를 입력하고 몇가지 옵션들을 생성하고자 하는 영상에 맞춰서 선택한다음 실행 버튼을 누르는 것이 Text-to-Video를 하기위한 전부입니다. 대부분의 다른 플랫폼들도 비슷한 UI를 가지고 있습니다. 현재로서는 LumaAI Dream Machine 정도가 시스템과 대화하는 인터랙티브한 경험을 제공하고 있습니다. 대부분의 옵션들은 메뉴를 클릭하면 알 수 있는 부분들이라 따로 설명을 하지는 않겠습니다.

KuaiShou Kling AI Kling AI의 사이트 주소는 https://klingai.com/ 입니다. 가입하고 플랜을 선택하면 아래와 같은 이미지를 보실 수 있습니다.

Kling AI의 경우에는 사이드바에 비디오 생성에 대한 설정들이 모여 있습니다. 실제적으로 영상을 생성하기 위해서 프롬프트를 입력하는 텍스트 필드는 아래와 같습니다.

RunwayML Gen-3 Alpha(Turbo) Gen-3 Alpha의 사이트 주소는 https://app.runwayml.com/ 입니다. 가입하고 플랜을 선택하시면 아래와 같은 이미지를 확인하실 수 있습니다.

Gen-3 Alpha의 경우도 대부분의 기능들은 사이드바에 몰려있고 실제적으로 영상을 생성하기 위해 프롬프트를 입력하는 텍스트 필드는 아래와 같습니다.

LumaAI Dream Machine Dream Machine의 경우 Sora와 마찬가지로 하단의 텍스트 입력창에서 생성을 위한 프롬프트 입력과 영상 생성을 위한 옵션 선택을 제공하고 있습니다. 다른 플랫폼과 다른 점은 앞에서도 설명했지만 아이디어 보드 개념을 채택하고 있고 시스템의 LLM과 인터랙티브하게 대화를 하면서 영상(및 이미지) 생성에 대한 아이디어를 발전시킬 수 있다는 점 입니다. 이 부분은 이후에 좀 더 자세히 설명하도록 하겠습니다.

Dream Machine의 프롬프트 입력창은 아래와 같은 모습입니다.

Google DeepMind Veo2 Veo2는 사이트주소는 https://labs.google/fx/tools/video-fx 입니다. 하지만 현재(2025.02.23)에는 아직 까지 미주 지역의 사용자들만 사용할 수 있습니다. 그러나 불과 하루전에 Freepik, fal ai등의 API를 제공받아서 서비스하는 플랫폼에서 제한적이지만 사용할 수 있게 되었습니다. 이렇게 API를 통해서 접근할 수 있게 된 것으로 미루어 이 책이 출판될 즈음에는 대부분의 유저들이 정식 서비스를 통해서 사용할 수 있을 것으로 보입니다.

Freepik의 사이트주소는 https://www.freepik.com/ 입니다. 사용하기 위해서는 여타 서비스들과 마찬가지로 가입과 플랜을 선택해야 합니다.

Freepik에서도 좌측 사이드바에 비디오를 생성하기 위한 옵션들이 있습니다. 실제로 서비스하는 플랫폼이 아니다보니 최소한의 기능만 제공되고 있습니다. 비디오를 생성하기 위한 텍스트 필드는 아래와 같은 모습입니다.

fal ai는 각종 생성 AI 모델의 API를 제공하는 플랫폼입니다. veo2 Text-to-Video를 사용하기 위한 주소는 https://fal.ai/models/fal-ai/veo2 입니다.

fal ai에서 veo2에 text-to-video를 통해서 비디오를 생성하는 프롬프트를 넣는 텍스트필드는 아래와 같습니다.

1-1-2 Text-to-Video 프롬프트 예시

OpenAI Sora

854 x 480, 5s, 30fps Close-up shot, Diving in the water of the pool, a tiger, an underwater photograph, a dynamic scene, the tiger is looking at the camera.

Close-up shot

말 그대로 ‘피사체(호랑이)를 가까이서 촬영’한다는 의미입니다. 프레임 전체에 호랑이의 얼굴 혹은 상반신 등이 크게 보이도록 의도하게 됩니다.

Diving in the water of the pool

호랑이가 수영장 물 속으로 뛰어들고 있는 모습, 즉 동적인 행동을 강조합니다. “물 속에 잠긴” 상황이므로 물보라나 물방울, 사방으로 흐르는 물의 움직임 등이 함께 표현될 수 있습니다.

A tiger

메인 피사체를 ‘호랑이’로 명확히 지정합니다. 이미지 생성 모델은 “호랑이”를 구체적으로 그려내야 하며, 앞서 언급된 물 속 상황과 결합하여 호랑이가 수영하거나 다이빙하는 상황을 표현하게 됩니다.

An underwater photograph

수중 사진’이라는 점을 강조합니다.카메라가 물 속에서 촬영하는 시점(underwater shot)으로, 물 표면 반사나 빛의 굴절, 수중 특유의 빛이나 색감 등을 표현하도록 유도합니다. “Close-up shot”과 함께 적용되므로, 물속에서 호랑이를 근접 촬영한 구도인 점이 특징입니다.

A dynamic scene

장면의 에너지가 넘치는 분위기를 더해 달라는 지시입니다. 호랑이의 동작(다이빙/점프), 튀는 물방울, 움직임이 크게 느껴지는 구도를 생성 모델이 만들어내도록 유도합니다.

The tiger is looking at the camera

호랑이와 시선이 직접 마주치는 장면을 요구합니다. 시선을 카메라로 고정시켜 극적인 느낌을 주며, 호랑이의 표정이나 눈을 강조해 감정적·시각적 임팩트를 높입니다.

KuaiShou Kling AI

1920 x 1080, 5s, 24fps Team works together at a bright office, sunlight through windows, and a camera glides across the workspace.

Team
복수의 사람들이 함께 있는 장면을 상징합니다.
여러 인물이 ‘협업’하고 있음을 암시하여, 단체의 분위기를 연출합니다.

Works together
협업(콜라보레이션) 중이라는 점을 강조합니다.
단순히 모여 있는 것이 아니라, 실제 업무나 공동 작업을 수행하는 상태임을 나타냅니다.

At a bright office
사무실 공간을 구체적으로 지정합니다. ‘밝은(bright)’이라는 형용사가 사무실 분위기를 산뜻하고 긍정적으로 만들어 줍니다.광량이 풍부한 환경으로, 영상적 연출 시 깔끔하고 활기찬 이미지를 기대할 수 있습니다.

Sunlight through windows
자연광이 들어오는 장면을 시각적으로 묘사합니다. 건물 내부로 햇빛이 들어와 밝고 따뜻한 분위기를 조성함. 사무실 창문 사이로 비치는 빛과 그림자 효과 등, 시각적 디테일을 살릴 수 있습니다.

And a camera glides across the workspace
‘카메라가 움직인다(glides)’는 것은 동적인 연출을 강조합니다. ‘워크스페이스(작업 공간) 전반을 가로지른다’는 점을 통해, 장소의 전체적인 모습이나 분위기를 보여주는 촬영 기법을 상상하게 합니다.
영상 혹은 애니메이션 등에서 흔히 사용되는 카메라 워킹(Camera Work)을 암시합니다.

RunwayML의 Gen-3

1280 x 768, 5s, 24fps A long tracking shot down a dark, narrow corridor in an abandoned hospital. Flickering overhead lights cast harsh shadows on peeling wallpaper. A faint, echoing drip of water intensifies the eerie silence. At the end of the hallway, a silhouette appears and abruptly disappears as the camera shakily zooms in

A long tracking shot
카메라 움직임을 강조하는 표현입니다. “Tracking shot”은 촬영 대상(또는 공간)을 따라 이동하며 보여주는 기법으로, 영화적 몰입감을 높이고 긴장감을 유지시킵니다. “Long”이라고 명시함으로써, 비교적 오랜 시간 동안(또는 긴 거리를 이동하면서) 분위기와 디테일을 보여주는 장면을 암시합니다.

Down a dark, narrow corridor
공간의 형태와 분위기를 구체적으로 설명합니다. “어두운(dark)” + “좁은(narrow) 복도(corridor)” 조합은 공포 혹은 스릴러 분위기를 극대화시키는 전형적인 무대 장치로 작동합니다. 시야가 제한되어 긴장감이 증가하고, 관객(또는 사용자)이 답답함·불안함을 느끼게 만듭니다.

In an abandoned hospital
장소가 ‘버려진(폐쇄된) 병원’이라는 설정으로, 공포·음침함을 한층 강조합니다. 병원 특유의 차가운 이미지와 결합하여, 음산하고 을씨년스러운 무드를 형성합니다. 누군가 머물지 않는 빈 공간이 주는 불안감·고립감을 부각시킵니다.

Flickering overhead lights cast harsh shadows on peeling wallpaper

깜빡이는 형광등(또는 전등)이 강렬하고 거친 그림자를 만들어냅니다.“Peeling wallpaper(벗겨진 벽지)”는 건물이 오래되고 관리가 안 된 상태임을 보여줍니다. 불안정한 조명 효과와 낡은 인테리어가 합쳐져, 음침하고 불쾌한 시각적 분위기를 조성합니다.

A faint, echoing drip of water intensifies the eerie silence
물방울이 똑똑 떨어지는 소리를 통해, 정적이 깨어질 듯 말 듯한 긴장감을 더합니다. 시각적으로 표현할 수 없지만 소리 효과는 공포감 조성에 중요한 요소로, “희미하면서도 메아리치는(drip of water)”라는 표현이 시각적으로 섬특한 연출을 하도록 도와줄 수 있습니다. “Eerie silence(섬뜩한 정적)”를 강조하여, 장면 전체가 더욱 음산하게 표현될 수 있도록 설정합니다. 그리고 이런 부분은 이후에 언급할 영상을 통해서 음성을 생성하는 Video-to-Audio 기술에서 활용할 수 있습니다.

At the end of the hallway, a silhouette appears
복도 끝에서 실루엣(인물 혹은 존재로 추정되는 형체)이 나타나는 장면을 배치해 강렬한 긴장 포인트를 형성합니다. 시야가 좁은 복도 끝에 무엇인가 보이는 공포 영화적 연출. 관객(또는 사용자)이 ‘정체를 알 수 없는 존재’에 대한 공포와 호기심을 갖게 됩니다.

And abruptly disappears as the camera shakily zooms in
카메라가 흔들리며 확대(zoom in)되는 순간, 실루엣이 갑자기 사라져 버립니다. 예상치 못한 순간에 대상이 사라짐으로써, 긴장과 미스터리함이 더욱 고조됩니다. 영화 연출에서 흔히 볼 수 있는 공포 기법으로, 보는 이에게 섬뜩함을 남기며 이후 전개를 궁금하게 만듭니다.

LumaAI Dream Machine(Ray2)

1920 x 1080, 5s, 24fps An intimate close-up of a Viking in snowfall, his frost-covered face and piercing eyes reflecting the harsh cold. Snowflakes settle on his fur cloak and braided beard, lit by dim natural light.

An intimate close-up
매우 가까운 구도에서 인물의 디테일을 잡아내는 촬영을 의미합니다. ‘Intimate’라는 표현으로 인해, 감정적·개인적 요소가 강조되고, 인물의 표정, 피부 및 의류의 질감 등을 선명하게 보여주게 됩니다.

Of a Viking
촬영 대상이 ‘바이킹’임을 명시합니다. 바이킹은 북유럽 해안의 전사·항해자로, 일반적으로 거칠고 용맹스러운 이미지를 연상시킵니다. 뿔 달린 투구, 두꺼운 외투, 긴 수염, 땋은 머리카락 등 전형적인 바이킹 스타일을 모델이 떠올릴 수 있습니다. 물론 역사적 정확성과는 상관없이 전형적 이미지를 생성하게 됩니다.

In snowfall
바깥 환경이 눈 내리는 상황임을 설정합니다. 배경과 분위기가 차갑고 혹독한 기후임을 보여주어, 바이킹 특유의 강인한 이미지를 강화합니다.

His frost-covered face
얼굴이 서리에 덮여 있을 정도로 혹독한 추위에 노출되어 있다는 디테일입니다. 털이나 수염, 피부 등에 결빙된 흔적을 표현함으로써 더 강렬한 시각적 효과를 줍니다.

And piercing eyes reflecting the harsh cold
“날카로운 눈빛(piercing eyes)”이라는 표현으로, 인물의 강인함과 결연한 표정을 시사합니다. 눈빛에 혹독한 추위(“the harsh cold”)가 반사되는 이미지 → 감정이나 기후의 영향이 눈에 담긴 상태를 상상케 하여, 보다 극적인 분위기를 형성합니다.

Snowflakes settle on his fur cloak and braided beard
눈송이가 털가죽 망토(fur cloak)와 땋은 수염(braided beard) 위에 내려앉는 모습으로, 세부적인 텍스처를 묘사합니다. 인물의 복장(‘fur cloak’)과 스타일(‘braided beard’)은 바이킹의 전통적·상징적 이미지를 구체화하는 핵심 요소입니다. 눈송이가 쌓이는 과정을 통해 동적인 날씨와 인물의 차가운 환경 속 표현을 더욱 사실적으로 보여줄 수 있습니다.

Lit by dim natural light
빛 환경이 자연광인데, 그것도 어두운(dim) 상태임을 설명합니다. 인물의 표정과 주변 디테일이 차분하고 은은한 분위기에서 드러나도록 연출하며, 혹독한 북유럽 겨울을 연상시킵니다. 어둡고 흐린 날씨나 일몰 후의 환경 같은 시각적 이미지를 떠올릴 수 있게 해 줍니다.

Google DeepMind Veo2

1280 x 720, 5s, 24fps A stylish, young Asian woman working at an office. She wears an oversized beige sweater and black leggings. She sits at a sleek wooden desk, her right hand on a wireless mouse and her left supporting her chin. A monitor displays IDEs such as Visual Studio Code, and various codes are floating. A cup and a sleek keyboard with handwritten notes are on the desk. Soft morning light filters through a large window, illuminating indoor plants, books, and a neatly arranged shelf, creating a calm and productive atmosphere.

A stylish, young Asian woman working at an office
주체(인물)의 특징: ‘젊고 스타일리시한 아시아 여성, 사무실 공간에서 일하고 있다는 설정을 통해, 현대적이고 전문적인 느낌을 부각 했습니다.

She wears an oversized beige sweater and black leggings
인물의 패션을 헐렁한 베이지 스웨터와 검정 레깅스 조합 편안하면서도 트렌디한 사무실 복장, 캐주얼 분위기 강조 했습니다.

She sits at a sleek wooden desk, her right hand on a wireless mouse and her left supporting her chin
인테리어를 깔끔하고 세련된 나무 책상으로 설정 했습니다. 인물의 자세는 마우스로 작업 하는 중이면서 생각에 잠긴 듯 턱을 괴고 있게 해, 업무나 아이디어 구상 중의 모습을 자연스럽게 표현 하도록 했습니다.

A monitor displays IDEs such as Visual Studio Code, and various codes are floating
모니터 화면에는 프로그래밍 IDE(예: Visual Studio Code)가디스플레이 되도록 했고 IT·개발 업무를 수행하는 모습으로 보이도록 연출 했습니다. ‘코드가 떠다닌다’는 표현을 통해, 사실적인 장면과 시각적 연출 효과를 더했습니다.

A cup and a sleek keyboard with handwritten notes are on the desk
책상 위 소품들로 컵, 현대적 키보드, 손글씨 메모 등 아날로그(메모)와 키보드등의 디지털적 요소가 섞인 업무 환경을 보여주도록 했습니다. 컵이 커피를 연상케 하여 일상의 일면을 강조 했습니다.

Soft morning light filters through a large window
조명/시간대 묘사는 부드러운 아침 햇살이 유입 따뜻하고 쾌적한 분위기 또는 하루의 시작을 연상시켜 생산적이고 활기찬 느낌 부각되도록 했습니다.

Illuminating indoor plants, books, and a neatly arranged shelf
사무실 내부에 식물, 책, 정돈된 선반 등이 자리해 있도록 했고 자연친화적이면서도 지적인 환경 조성 했습니다. 아침 빛에 비춰져 더욱 산뜻한 장면 형성되도록 했습니다.

Creating a calm and productive atmosphere
종합적인 장면 분위기는 평온하면서 집중도가 높은 공간으로 설정했고 주변 오브젝트와 자연광이 어우러져 편안하면서 효율적인 업무 환경을 연출하도록 했습니다.

요약

Sora에서의 프롬프트 작성은 단순한 문장 입력이 아니라, 시네마틱 연출을 설계하는 과정으로 볼 수 있습니다.(이것은 생성 AI 비디오 모델에 전반적으로 적용되는 사항일 것입니다.) 효과적인 프롬프트는 명확성, 구체성, 내러티브 흐름을 갖춰야 하며, 감정과 분위기까지 고려해야 합니다.

구체적이고 명확한 묘사가 필수
AI는 인간처럼 추론하지 않으므로, 어떤 장면을 보고 싶은지 구체적으로 기술해야 합니다. 예를들어 "A man looks sad on a boat"라고 하기보다는 "A lone sailor stands at the bow of his wooden ship, staring at the fading coastline as the wind ruffles his coat."라고 하는 것이 도움이 됩니다.

시네마틱 언어 활용
카메라 앵글(로우 앵글, 클로즈업), 카메라 움직임(팬, 달리), 조명(따뜻한 색감, 강한 콘트라스트) 등을 명시하면 더욱 정교한 결과를 얻을 수 있습니다.

복잡성을 조절해야 합니다.
한 문장에 너무 많은 요소를 넣으면 AI가 초점을 맞추기 어렵습니다. 한 장면에서 한두 가지 주요 요소에 집중하는 것이 중요합니다.

기술적 사양 명확히 기재
예를들어 해상도(HD, 4K)등을 포함하면 더 정밀한 결과를 얻을 수 있습니다.