Create with AI

Audio Loop Generator : Stable Audio Open 1.0

오디오 생성 능력: 최대 47초 길이의 스테레오 오디오를 44.1kHz 샘플레이트로 생성할 수 있다. 이는 드럼 비트, 악기 리프, 주변 소리, 효과음(Foley recording) 등 다양한 오디오 샘플을 생성하는 데 적합하다.

Tutorials

갤러리 보기

Generative Video Model

최근 AI 기술의 발전은 비디오 콘텐츠 제작의 방식을 혁신적으로 변화시키고 있습니다. 과거에는 전문적인 장비와 많은 시간이 필요했던 영상 제작 과정이, 이제는 텍스트나 이미지와 같은 간단한 입력만으로도 가능 해졌습니다. 특히, 텍스트를 기반으로 영상을 생성하는 T2V(Text-to-Video), 이미지를 비디오로 변환시키는 I2V (Image-to-Video) 그리고 영상을 다른 스타일로 변환 시켜주는 V2V (Video-to-Video)기술은 콘텐츠 제작의 접근성을 대폭 확대하며, 창의적 작업의 새로운 가능성을 열어주고 있습니다.

생성 AI 비디오 모델은 단순히 사용자 경험을 향상시키는 데 그치지 않고, 마케팅, 교육, 엔터테인먼트 등 다양한 분야에서 혁신적인 도구로 자리 잡고 있습니다. 이 기술을 통해 사용자는 자신의 아이디어를 더 빠르고 직관적으로 시각화 할 수 있으며, 기존의 비디오 제작 과정에서 발생하는 시간과 비용을 절감할 수 있습니다.

이 글에서는 현재 가장 대표적인 생성형 AI 영상 플랫폼들 OpenAI의 Sora, KuaiShou의 Kling AI, RunwayML의 Gen-3, LumaAI의 Dream Machine(Ray2)그리고 최근 API통해서 공개된 Google DeepMind의 Veo2를 중심으로 설명을 하도록 하겠습니다.

Image-to-Video는 단일 이미지나 여러 장의 이미지를 입력해 자연스러운 동영상을 생성하는 생성 AI 기술입니다. 이 기술은 딥러닝 모델을 사용하여 이미지에 담긴 객체들의 움직임을 예측하고 생성합니다. 모델은 수많은 이미지와 영상 데이터로 학습되어 있기에 물리 법칙과 자연스러운 움직임의 패턴을 파악할 수 있습니다. 모델은 입력된 이미지를 분석하여 각 객체의 특성을 파악하고, 시간의 흐름에 따른 자연스러운 변화를 만들어냅니다.

1-1. T2V (Text-to-Video) 텍스트 입력으로 비디오를 생성

Text-to-Video 기술은 자연어 설명을 기반으로 동영상을 생성하는 기술입니다. 2025년 현재, 이 분야는 Google, Meta등의 거대 테크기업과 OpenAI등의 스타트업들에 의해서 활발한 연구와 발전이 이루어지고 있습니다. 이 기술은 대규모 언어 모델(LLM)과 생성형 AI를 결합하여 작동합니다. 텍스트 입력을 분석하여 장면의 구성 요소, 움직임, 시각적 특성 등을 파악하고, 이를 바탕으로 연속된 프레임을 생성합니다.

1-1. 비디오 생성 AI 모델과 서비스에 대한 설명

주요 특징:

시간적 일관성
생성된 영상에서 객체들은 시간의 흐름에 따라 일관된 움직임을 보입니다. 예를 들어, 강물이 흐르는 장면에서는 물의 흐름이 자연스럽게 연결됩니다.

공간적 정확성
객체들 간의 상호작용과 원근감이 현실적으로 표현됩니다. 그림자, 반사, 조명 등의 요소들도 움직임에 따라 적절히 변화합니다.

컨텍스트 이해
AI는 이미지의 전반적인 상황과 맥락을 이해하여 적절한 움직임을 생성합니다.

1-2. I2V (Image-to-Video) 이미지를 입력해서 비디오를 생성하기

Video-to-Video는 입력된 영상의 움직임, 구조, 그리고 장면 정보를 유지하면서도, 새로운 스타일이나 특성을 부여해 전혀 다른 느낌의 영상으로 변환하는 기술입니다. 최근에는 모델의 발전으로 인해 단순한 필터 수준을 넘어, 사실적인 합성이나 특정 화풍·조명·질감 등을 재현할 수 있을 정도로 발전하고 있습니다. 현재(20205,02,23) Video-to-Video를 지원하는 플랫폼은 OpenAI Sora와 RunwayML Gen-3 Alpha 입니다.

주요 기능과 특징:

OpenAI Sora의 특징

RunwayML Gen-3 Alpha/Alpha Turbo의 특징

1-3. V2V (Video-to-Video) 비디오를 입력해서 비디오를 생성하기

I2V(Image-to-Video) 기술은 한 장의 이미지를 움직이는 영상으로 만들어 주는 강력한 생성형 AI 기술입니다. 하지만 ‘어떤 이미지를 입력으로 사용하느냐’에 따라 결과물의 스타일과 품질이 크게 달라질 수 있습니다. 따라서 I2V를 활용해 영상을 만들고자 할 때는 먼저 원하는 장면과 캐릭터, 분위기에 최적화된 이미지를 준비하는 과정이 필요합니다. 아래에서는 대표적으로 사용되는 이미지 생성 모델들과 원하는 이미지를 생성하기 위해서 간단히 오픈소스 이미지 모델을 추가 학습 하는 방법들을 소개하도록 하겠습니다.

2-1-1. MidJourney 웹 인터페이스 개요

미드저니 AI 기반 이미지 생성 플랫폼으로, 사용자가 입력한 텍스트 프롬프트를 기반으로 독창적인 아트워크, 일러스트, 사진 스타일의 이미지를 생성하는 서비스입니다. 그동안은 주로 Discord에서 봇에 명령 입력해 이미지를 생성해왔지만, 최근에는 웹 인터페이스를 지원하여 아티스트가 보다 직관적인 환경에서 작업할 수 있게 되었습니다.

사이트는 주소는 https://www.midjourney.com 입다. Discord 계정이나 Google 계정을 연동해야 로그인 할 수 있습니다. 로그인 과정과 플랜을 선택하는 부분은 다른 플랫폼을 설명하는 것과 마찬가지로 생략하도록 하겠습니다.

2-1. Imag-to-Video(I2V)를 위한 이미지 생성 작업하기

2-2-1. Flux에 대해서

Black Forest Labs에서 개발한 FLUX는 텍스트를 기반으로 이미지를 생성하는 최첨단 모델입니다. 이 모델은 자연어 설명을 입력 받아 해당하는 이미지를 생성하는 능력을 갖추고 있습니다. Flux가 공개된 이후로 Stable Diffusion보다 Flux를 더 많이 사용하고 있습니다. Stable Diffusion은 오픈소스 AI 생성 모델로 강력한 커뮤니티와 확장성을 가지고 있지만, 속도, 품질, 모델 최적화 측면에서 Flux가 더 뛰어난 성능을 제공하고 있기 때문입니다. 하지만 AI 이미지 생성 기술이 급격하게 발전하면서 AI 영상 작업에 대한 요구가 늘어나고 있어서 사용빈도는 생성 AI 비디오 모델을 더 많이 사용하고 있습니다. 하지만 AI 영상을 만들기 위해서는 이미지 프롬프팅이 가장 효과적이고 빠르게 작업하 때는 Midjourney를 사용하고 있지만 디테일한 커스터마이징이 필요하거나 개발이 필요한 작업은 Flux를 여전히 사용하고 있습니다.

FLUX 모델은 다양한 버전으로 제공되며, 각 버전은 다음과 같은 특징을 가지고 있습니다:

Flux 모델을 위한 LoRA 학습을 진행하려면, 특정 인물의 특징을 반영할 수 있는 충분한 양질의 이미지 데이터셋이 필요합니다. 그러나 인터넷에서 가져온 사진이나 실제 인물의 사진을 사용할 수 없는 법적·윤리적 제약이 있기 때문에, 학습에 적합한 데이터를 직접 생성해야 합니다. 이를 해결하기 위해 생성 AI 기반 비디오 모델을 활용하여 LoRA 학습용 이미지를 제작하려고 합니다.

FLUX.1 [pro]: 최고 수준의 성능을 제공하며, 우수한 프롬프트 추종 능력, 시각적 품질, 이미지 디테일 및 출력 다양성을 갖추고 있습니다. 이 버전은 API를 통해 접근할 수 있으며, Freepik, Together.ai, Fal.ai, Replicate 등의 파트너를 통해서도 이용 가능합니다.

•

FLUX.1 [dev]: FLUX.1 [pro]에서 직접 증류된 오픈 웨이트 모델로, 비상업적 용도로 사용됩니다. 유사한 품질과 프롬프트 추종 능력을 가지며, 동일한 크기의 표준 모델보다 효율적입니다. 이 버전의 웨이트는 Hugging Face에서 제공되며, Replicate, Fal.ai, Mystic, Deepinfra, TensorOpera, Hyperbolic 등을 통해 직접 사용해볼 수 있습니다.

•

FLUX.1 [schnell]: 가장 빠른 모델로, 로컬 개발 및 개인 사용을 위해 최적화되었습니다. Apache 2.0 라이선스 하에 공개되어 있으며, Hugging Face에서 웨이트를 제공하고 GitHub에서 추론 코드를 찾을 수 있습니다. Replicate, Fal.ai, Mystic, Deepinfra, TensorOpera, Together.ai 등을 통해서도 이용 가능합니다.

또한, FLUX.1 Tools라는 도구 모음이 제공되어, 기본 텍스트-이미지 모델인 FLUX.1에 제어 및 조정 기능을 추가합니다. 이 도구에는 다음과 같은 기능이 포함됩니다:

2-2. Flux에서 이미지 생성하기

생성 AI 비디오 모델을 이용하면 일관된 스타일과 조명을 유지하면서도, 다양한 각도와 표정을 포함한 고품질 데이터셋을 구축할 수 있습니다. 특히, 특정 스타일이나 개성을 가진 인물을 학습시키려면 다양한 포즈와 조명 환경에서 촬영된 이미지가 필요한데 비디오 모델을 사용하면 이러한 요구를 충족하는 프레임을 쉽게 추출할 수 있습니다.

기술적으로는 AI 비디오 생성 모델을 사용하여 5~10초 길이의 클립을 제작한 후, 이를 프레임 단위로 분해하여 이미지 데이터셋을 구성하는 방식이 이상적입니다. 이후, Flux 모델의 특성에 맞게 이미지 보정, 해상도 및 노이즈 정리 등의 전처리 과정을 거쳐 학습을 위한 데이터셋을 준비하려고 합니다.

이러한 접근 방식은 기존의 데이터셋을 사용할 수 없는 환경에서도 맞춤형 인물 LoRA 학습을 가능하게 하며, 원하는 개성을 반영한 이미지를 생성하는 것이 가능하게 합니다. 다음 섹션에서는 이러한 생성 데이터를 효율적으로 정리하고 전처리하는 방법에 대해 다루겠습니다.

2-7. 이미지 업스케일링

갤러리 보기

Midjourney

0. 원문

원문은 astro의 "Midjourney V7 프롬프트 작성 가이드 정식 버전(초보자용)"이고 스터디 삼아서 Claude로 번역을 했고 이미지들은 번역하면서 테스트 한 결과들입니다. 예제들중 몇 가지는 취향에 따라 프롬프트를 수정을 해서 이미지를 생성 했습니다.

astro on Twitter / X

Midjourney v7プロンプト作成ガイド完全版（初心者向け）🧵👇 pic.twitter.com/j0YDZOwGwH— astro (@ainextastro) April 4, 2025

https://x.com/ainextastro/status/1908270693097332740

1. 시작하며

MidJourney v7은 프롬프트의 이해력과 이미지 생성 품질이 크게 향상된 최신 모델입니다. 본 가이드에서는 v7에서의 최적한 프롬프트 구성, 주요 업데이트, 스타일 지정, 인물이나 복잡한 장면의 묘사 방법, 신기능(드래프트 모드와 퍼스널라이즈) 등을 일본어로 설명합니다. MidJourney를 활용하는 모든 크리에이터를 위한 실용적이고 포괄적인 가이드입니다.

2. MidJourney v7의 주요 업데이트

MidJourney : v7 프롬프트 작성 가이드

갤러리 보기

Replicate

design

Seedance Pro did pretty well with this timelapse prompt, except it decided to also timelapse the photo on the wall 🫠Image:> A woman is working at her chill desk in a large home living room in a rooftop penthouse, wearing large headphones, a photo of a city outsideVideo:>… pic.twitter.com/dvKlpKKNx8— fofr (@fofrAI) August 21, 2025

Reference

fofr on Twitter / X

https://x.com/fofrAI/status/1958539728971526280

AI 비디오 생성 모델 'Seedance Pro'를 사용해 타임랩스(timelapse) 프롬프트를 테스트한 결과를 공유. 기본 이미지 프롬프트(여성이 헤드폰을 쓰고 거실에서 일하는 장면)를 기반으로 비디오 프롬프트(빠른 타임랩스에서 낮이 밤으로 바뀌는 장면)를 생성했으나, 모델이 벽에 걸린 사진도 의도치 않게 타임랩스 처리한 점을 이야기한다. 이는 AI 모델의 예상치 못한 행동(hallucination)을 강조하는 것이 포인트다.

•

Seedance Pro (Seedance 1.0 Pro): ByteDance(틱톡 모회사)가 개발한 고품질 AI 비디오 생성 모델. 텍스트 또는 이미지 입력으로 멀티샷 비디오를 생성하며, 시맨틱 이해와 프롬프트 준수에 강점. 2025년 기준으로 전문 스토리텔링, 시네마틱 효과를 지원하는 인기 모델(예: Fal.ai, RunComfy 등 플랫폼에서 사용). 타임랩스 같은 동적 효과에 적합하지만, 트윗처럼 과잉 해석 오류 발생 가능성이 있다.

Real Life Anime & SeeDance 1.0 Pro : hallucination

갤러리 보기

Higgsfield

대시 보드

메뉴

모션 컨트롤

인터페이스

Archiving

갤러리 보기

표

Gen-AI News

Google DeepMind가 Gemini 모델의 이미지 생성 기능을 대폭 업그레이드. 이는 새로운 최첨단 이미지 생성 및 편집 모델로, 사진 같은 사실적 이미지부터 환상적인 세계까지 생성, 편집, 정제할 수 있게 되었다. 이번 업데이트는 Gemini 2.5 Flash 버전에 적용되며, 추론 능력, 제어, 창의성이 강조 되었다.

주요 기능 개요

Gemini 2.5 Flash는 이미지 생성에서 다음과 같은 향상된 기능을 제공한다.

1. 캐릭터 일관성 (Character Consistency)

Google DeepMind, Gemini 2.5 Flash 이미지 생성 기능 업그레이드 발표

gif

FOURIER-Robotics

Fourier is an industry-leading general purpose robotics company. Our mission is to leverage the full-stack robotics technology to enrich people's life.

https://www.fftai.com/

개요

•

GR-2는 2024년 9월 푸리에 인텔리전스에서 출시된 차세대 휴머노이드 로봇으로, 하드웨어·디자인·소프트웨어 업그레이드를 통해 복잡한 작업 수행이 가능하다. 이는 NVIDIA Isaac Gym을 활용한 AI 훈련으로 실현되며, embodied AI(구현된 AI) 탐구를 지원한다.

주요 기술 사양

GR-2의 스펙은 인간과 유사한 움직임을 위해 최적화되어 있으며, 공식 사이트와 관련 자료에서 확인된 내용은 다음과 같다.

•

치수 및 성능:

◦

높이: 175cm

◦

무게: 63kg

◦

배터리 수명: 2시간

◦

속도: 5km/h

◦

자유도(DoF): 53도 (전신 구조로 인간 움직임 시뮬레이션 가능)

◦

피크 토크: 380N.m (강력한 힘 발휘)

푸리에 인텔리전스 GR-2 휴머노이드 로봇: 보디빌딩 데모

Excited to be an early beta user of Marble by @theworldlabs ! I took some "vibe-check" on the world model and it performs amazingly good! Below is a video showing several 3D worlds generated by Marble 0.1-plus, all feature in GRASP Lab🧵Here is thread on my observation https://t.co/UedGICE8RM pic.twitter.com/qYrbuIjcyo— Jie Wang (@JieWang_ZJUI) August 22, 2025

소개

theworldlabs에서 개발한 "Marble"이라는 시스템은 단일 이미지를 기반으로 3D 세계를 생성하는 혁신적인 접근 방식을 제시한다. Fei-Fei Li이 x에 공유한 내용과 와 JieWang_ZJUI이 사용하면서 관찰을 바탕으로 Marble의 기능과 의의를 살펴본다.

Jie Wang on Twitter / X

https://x.com/JieWang_ZJUI/status/1958964274476589279

Fei-Fei Li의 x 포스트

“이제 genAI에서는 한 장의 그림이 천 마디 말보다 더 가치가 있다. 한 장의 이미지는 이제 3D 세계로 완벽하게 변환될 수 있다! 그리고 이 정원을 끝없이 거닐어도, 그 정원은 여전히 그곳에 있을 것이다.”

WorldLabs Marble: 단일 이미지를 통한 3D 월드 생성의 가능성

소개

Mirage 2는 Dynamics Lab에서 개발한 실시간 일반 도메인 생성 월드 엔진으로, 온라인에서 플레이할 수 있는 AI 기반 UGC(User-Generated Content) 게임 엔진이다. 사용자가 이미지(사진, 컨셉 아트, 고전 명화, 아이들의 그림 등)를 업로드하면 이를 살아 있는 상호작용 세계로 변환하며, 텍스트 프롬프트를 통해 초현실적인 장면이나 광할한 경관의 장면들을 생성할 수 있다. 링크를 공유하면 친구들이 즉시 참여해 플레이할 수 있다. Mirage 1 출시 한 달 만에 2를 공개하였으며, Google DeepMind의 Genie 3와 비교되지만, Mirage 2는 현재 바로 플레이 가능하다.

Dynamics Lab on Twitter / X

공식 링크: Mirage 2 데모 / 블로그 발표

•

발표 날짜: 2025년 8월 21일

Introducing Mirage 2 — a real-time, general-domain generative world engine you can play onlineUpload any image—photos, concept art, classic paintings, kids' drawings—and step into it as a live, interactive world.Prompt your worlds with text to create any surreal scenes and… pic.twitter.com/bmKXjAO9Pl— Dynamics Lab (@DynamicsLab_AI) August 21, 2025

https://x.com/DynamicsLab_AI/status/1958592749378445319

주요 기능

Mirage2 : 지금 바로 플레이할 수 있는Generative World Model

디자인

개요

월드 모델(World Model)은 AI 시스템이 환경의 상태와 사용자 행동을 기반으로 다음 상태를 예측하여 동적이고 상호작용 가능한 비디오를 생성하는 기술이다. 이는 AGI(인공지능 일반)로의 발전과 게임, 자율주행, 엔터테인먼트, 교육 등 다양한 분야에서 혁신을 가능하게 할 것으로 보인다. 여기서는 Google DeepMind의 Genie 3, Yan Team의 Yan, Skywork AI의 Matrix-Game 2.0, Shanghai AI Lab의 Yume, Horizon Robotics의 Epona, Dynamics Lab의 Mirage, Odyssey의 Interactive Video, Tencent Hunyuan의 Hunyuan-GameCraft를 중심으로 월드 모델의 특징, 기술적 접근, 성능, 응용 가능성을 정리한다.

1. 월드 모델이란?

정의: 월드 모델은 현재 상태, 과거 상태 이력, 사용자 행동을 입력으로 받아 다음 프레임(세계 상태)을 예측하는 오토리그레시브 모델이다. 비디오 모델(고정된 클립 생성)과 달리, 실시간 상호작용과 유연한 미래 예측이 가능하게 한다.

World Model of World Models : 지금 까지(2025.08)의 월드 모델들.

핵심 요소:

◦

행동 조건화: 키보드, 마우스, 텍스트, 궤적 등의 입력을 처리.

◦

시간적·공간적 일관성: 장기 시퀀스에서 환경과 객체의 일관성 유지.

◦

실시간 성능: 낮은 지연 시간으로 프레임별 생성.

Grok Imagene

Ian Curtis (@XRarchitect)가 2025년 8월 12일에 게시한 X 스레드는 Midjourney에서 시작하여 Astra로 업스케일링하고, Video2Scene을 사용하여 가우시안 스플래팅으로 변환하는 창작 프로세스.

Google Nano-banana

nano-banana는 LMArena 플랫폼에서 발견된 출처 미상의 이미지 생성 및 편집 AI 모델로, 레딧과 X(트위터) 등 SNS를 통해 화제가 됨. 공식 발표나 개발사 정보는 없으며, 커뮤니티 추측에 따르면 Google(Imagen/Gemini)에서 개발한 비공개 모델로 추측하고 있다.

구글이 8월 20일에 열리는 "Made by Google" Pixel 이벤트를 앞두고 다양한 AI 업데이트를 준비하고 있는데 GEMPIX (제미니 픽셀?) 이미지 생성 업그레이드가 제미니 출시를 위해 준비 중이라고 한다. 이는 LM Arean의 nano-banana 모델과 관련이 있을 수 있다.

개요

Meta AI는 DINOv3를 공개하며, 자가 지도 학습(SSL, Self-Supervised Learning)을 통해 이미지 데이터를 활용한 범용 비전 백본(vision backbone)을 개발했다. DINOv3는 웹 이미지와 위성 이미지를 포함한 다양한 도메인에서 최고의 성능을 달성하며, 레이블 데이터 없이도 강력한 고해상도 이미지 피처를 생성한다. 이를 통해 이미지 분류, 객체 탐지, 시맨틱 세그멘테이션 등 다양한 비전 작업에서 뛰어난 성능을 제공한다.

주요 내용

DINOv3: 전례 없는 규모의 비전 자가 지도 학습

익스테리어 예시

Ian Curtis on Twitter / X

🏦 pic.twitter.com/auraEjagAM— Ian Curtis (@XRarchitect) August 13, 2025

https://x.com/XRarchitect/status/1955666648205279449

Ian Curtis on Twitter / X

I started with a personalized Midjourney Moodboard built from a collection of 3D scanning and capture images in a style I liked. I then used this Moodboard as the style reference to generate an AI image of the building on the hill. Next, I had Midjourney rotate the camera 180°… pic.twitter.com/O9Moj1d325— Ian Curtis (@XRarchitect) August 13, 2025

https://x.com/XRarchitect/status/1955667608969375769

실내 인테리어의 예시

3D 씬을 만들기 위한 Midjourney, Astra, Video2Scene 파이프라인

로보틱스 산업은 AI 기술의 발전과 함께 빠르게 성장하고 있지만, 로봇이 생성하는 방대한 데이터가 큰 도전 과제가 되고 있다. AI & Robotics 전문가 Ilir Aliu(@IlirAliu_)가 X에 게시한 스레드에서 로보틱스 데이터의 '혼란(chaos)' 문제를 지적하며, 이를 해결하는 '로보틱스 데이터 스택(robotics data stack)'의 등장에 대해 언급했다. 그는 로봇이 생성하는 테라바이트급 데이터를 효과적으로 관리하지 못하면 산업 전체가 수십억 달러의 손실을 입을 수 있다고 강조한다.

개요

BeyondMimic은 인간 모션으로부터 스킬을 학습하여 전신 휴머노이드 제어를 위한 일반화 가능한 정책을 제공하는 프레임워크다. 이 기술은 모션 트래킹과 확산 모델 기반 가이드(diffusion)를 통해 현실 하드웨어에서 동적이고 자연스러운 움직임을 실현한다.

프로젝트 소개

•

목적: 인간 모션 학습을 통해 휴머노이드 로봇의 전신 제어를 위한 일반화 정책을 개발. 기존 문제점(스케일러블한 고품질 모션 트래킹 프레임워크 부족, 모션 프리미티브 학습 및 조합을 위한 증류 접근법 부재)을 해결한다.

•

주요 혁신:

◦

모션 트래킹 파이프라인: 점핑 스핀, 스프린팅, 카트휠 등 도전적인 스킬을 최첨단 품질로 실행.

◦

가이드된 확산(guide diffusion)을 활용한 유연하고 자연스러운 제어.

◦

단순 비용 함수를 사용한 테스트 시점 제로-샷 작업 특화 제어.

BeyondMimic: 인간 모션 학습을 통한 휴머노이드 제어 프레임워크

gif

개요

로보틱스 데이터의 규모, 기존 문제점, 그리고 최근 3년간 등장한 혁신적인 도구들(Foxglove, Rerun, Roboto AI 등)에 대해서 소개한다. 이 도구들은 데이터 시각화, 검색, 통합을 통해 엔지니어들이 '데이터 청소부'에서 '로봇 빌더'로 전환할 수 있게 돕는다.

Ilir Aliu - eu/acc on Twitter / X

스레드 배경: Ilir Aliu의 스레드는 Boston Dynamics의 Atlas 로봇이 실패하는 장면을 시각화한 비디오로 시작한다. 비디오는 로봇의 센서 데이터(포인트 클라우드, 이미지 등)가 녹색 오버레이로 표시되어 데이터의 '혼란'을 상징적으로 보여준다. 로봇 한 대가 시간당 2TB의 데이터를 생성하며, 이는 Netflix 한 달 스트리밍 데이터보다 많다. 그러나 99%의 데이터가 검색 불가능한 '디지털 쓰레기장'에 버려진다고 지적한다.

Every robot you see is a data firehose generating terabytes of chaos.This hidden crisis is the #1 reason robots fail, and it's costing the industry billions. You see hardware, but not the data swamp drowning engineers.In 2025, a quiet revolution is fixing it. Here’s how. 🧵 pic.twitter.com/vivGt48JOy— Ilir Aliu - eu/acc (@IlirAliu_) August 10, 2025

https://x.com/IlirAliu_/status/1954545511807012985

Robotics Data Stack: AI 기반 로봇 개발을 가속화하는 도구들

테스트 결과

360 이미지를 생성하고 그라운드에 해당하는 부분은 DepthMap을 생성해서 바닥의 지오메트리를 디스플레이스먼트로 살짝 튀어나오게 해서 약간의 3D 효과를 내게 한 것 같다. 360 파노라마를 생성하는 Blockade Lab(https://www.blockadelabs.com/)과의 차별점은 이 부분인 것 같다. 인터랙티브하게 움직이는 것은 카메라와 환경구와 바닥이 충돌하지 않는 범위에서만 움직일 수 있다. 프로모션의 영상은 그것을 3D 작업 환경에 가지고 가서 물리나 시뮬레이션을 돌리는 예시를 보여준 것 같다.

소개

“Hunyuan3D 월드 모델 1.0출시 및 오픈 소스로 공개. 이 모델을 사용하면 단 한 문장이나 이미지만으로도 몰입감 넘치고 탐험 가능하며 인터랙티브한 3D 세계를 제작할 수 있다. 업계 최초의 오픈 소스 3D 월드 생성 모델로, CG 파이프라인과 호환되어 완벽한 편집 및 시뮬레이션이 가능합니다. 게임 개발, VR, 디지털 콘텐츠 제작 등에 혁신을 가져올 것이다.”

Hunyuan3D World Model