디자인
개요
월드 모델(World Model)은 AI 시스템이 환경의 상태와 사용자 행동을 기반으로 다음 상태를 예측하여 동적이고 상호작용 가능한 비디오를 생성하는 기술이다. 이는 AGI(인공지능 일반)로의 발전과 게임, 자율주행, 엔터테인먼트, 교육 등 다양한 분야에서 혁신을 가능하게 할 것으로 보인다. 여기서는 Google DeepMind의 Genie 3, Yan Team의 Yan, Skywork AI의 Matrix-Game 2.0, Shanghai AI Lab의 Yume, Horizon Robotics의 Epona, Dynamics Lab의 Mirage, Odyssey의 Interactive Video, Tencent Hunyuan의 Hunyuan-GameCraft를 중심으로 월드 모델의 특징, 기술적 접근, 성능, 응용 가능성을 정리한다.
1. 월드 모델이란?
•
정의: 월드 모델은 현재 상태, 과거 상태 이력, 사용자 행동을 입력으로 받아 다음 프레임(세계 상태)을 예측하는 오토리그레시브 모델이다. 비디오 모델(고정된 클립 생성)과 달리, 실시간 상호작용과 유연한 미래 예측이 가능하게 한다.
•
핵심 요소:
◦
행동 조건화: 키보드, 마우스, 텍스트, 궤적 등의 입력을 처리.
◦
시간적·공간적 일관성: 장기 시퀀스에서 환경과 객체의 일관성 유지.
◦
실시간 성능: 낮은 지연 시간으로 프레임별 생성.
•
응용 분야: 게임, 자율주행, 교육, 가상 인간, 로보틱스.
2. 주요 월드 모델 비교
2.1. Genie 3 (Google DeepMind)
•
특징:
◦
입력: 텍스트 프롬프트 기반, 내비게이션 입력, 프롬프트 기반 세계 이벤트.
◦
성능: 720p, 24 FPS, 몇 분간 일관성 유지.
◦
기술: 오토리그레시브 프레임 생성, 긴 맥락 창(1분)으로 시각적 메모리 유지.
◦
데이터: 비공개, 게임 및 시뮬레이션 환경 중심.
•
강점:
◦
물리적 특성(물, 조명), 자연 생태계, 상상 속 시나리오, 역사적 배경 생성.
◦
SIMA 에이전트와 통합, AGI 연구에 기여.
•
한계:
◦
제한된 행동 공간, 다중 에이전트 상호작용 미흡.
◦
실제 장소의 지리적 정확도 부족, 텍스트 렌더링 제한.
◦
오픈소스 미제공, 제한된 연구 미리보기 제공.
•
응용: 게임, 로보틱스, 교육, 훈련.
2.2. Yan (Yan Team)
•
특징:
◦
입력: 텍스트, 이미지, 행동 기반 제어.
◦
성능: 1080p, 60 FPS, 장기 시퀀스 지원.
◦
기술:
▪
Yan-Sim: 고압축 VAE, DDIM 샘플링, 모델 프루닝/양자화.
▪
Yan-Gen: 다중 모달 확산 트랜스포머(DiT), 교차 주의 레이어.
▪
Yan-Edit: 구조적/스타일 편집, 깊이 맵 연결.
◦
데이터: 비공개, 게임 환경 중심.
•
강점:
◦
높은 해상도와 프레임 속도, 다중 세분화 편집(구조/스타일).
◦
닫힌 도메인부터 오픈월드까지 적응적 합성.
•
한계:
◦
오픈소스 여부 불명확.
◦
복잡한 다중 에이전트 상호작용 미지원.
•
응용: 게임, 오픈월드 시뮬레이션, 콘텐츠 편집.
2.3. Matrix-Game 2.0 (Skywork AI)
•
특징:
◦
입력: 시각 콘텐츠, 키보드/마우스 행동.
◦
성능: 25 FPS, 분 단위 비디오 생성.
◦
기술: 3D 인과적 VAE, 다중 모달 DiT, 자기강제 훈련, KV 캐싱.
◦
데이터: Unreal Engine, GTA5 기반 1200시간 게임 데이터.
•
강점:
◦
오픈소스.
◦
GameWorld Score 벤치마크에서 이미지 품질(0.61), 시간적 일관성(0.94), 입력 정확도(0.91/0.95) 우수.
◦
다양한 장면 스타일(GTA, Minecraft, TempleRun).
•
한계:
◦
환경 일관성 결함(예: 호수/건물 급변).
◦
GTA5 데이터 사용으로 저작권 문제 가능.
•
응용: 게임 프로토타이핑, 자율주행, 가상 인간, 메타버스.
2.4. Yume (Shanghai AI Lab)
•
특징:
◦
입력: 현재 이미지(프리뷰), 향후 텍스트/비디오/신경 신호 목표.
◦
성능: FPS 미공개, 장기 시퀀스 지원.
◦
기술:
▪
카메라 모션 양자화(QCM)로 직관적 키보드 제어.
▪
Masked Video Diffusion Transformer(MVDT)로 무한 생성.
▪
Anti-Artifact Mechanism(AAM), Time-Travel SDE(TTS-SDE)로 품질/일관성 개선.
▪
적대적 증류/캐싱으로 3배 효율성 향상.
◦
데이터: Sekai 세계 탐색 데이터셋.
•
강점:
◦
오픈소스, 매달 업데이트.
◦
다양한 장면에서 품질 우수.
•
한계:
◦
프리뷰 버전(이미지 기반), 신경 신호 미구현.
◦
FPS 정보 부족.
•
응용: 게임, 체화된 AI, 가상 탐색.
2.5. Epona (Horizon Robotics)
•
특징:
◦
입력: 주행 맥락, 궤적 입력.
◦
성능: 최대 2분, FPS 미공개, 고해상도.
◦
기술:
▪
시공간 분리 팩토라이제이션, 모듈식 궤적/비디오 예측.
▪
Chain-of-Forward 훈련, Denoising Convolutional Autoencoder(DCAE).
◦
데이터: NuPlan, NuScenes, 중국 주행 데이터.
•
강점:
◦
오픈소스.
◦
NAVSIM 벤치마크에서 단대단 플래너 상회, 7.4% FVD 개선.
◦
자율주행 특화, 교통 규칙 이해.
•
한계:
◦
카메라 입력 제한(일부 전면 카메라만 사용).
◦
데이터 의존성(자율주행 환경에 특화).
•
응용: 자율주행, 교통 시뮬레이션.
2.6. Mirage (Dynamics Lab)
•
특징:
◦
입력: 자연어, 키보드, 컨트롤러.
◦
성능: 16 FPS, 10분 이상 플레이, SD 화질.
◦
기술: 대규모 트랜스포머 기반 확산 모델, KV 캐싱, 고급 증류.
◦
데이터: 인터넷 게임 데이터, 인간 플레이 녹화.
•
강점:
◦
UGC 2.0: 실시간 환경 생성/변경(예: 골목, 차량 추가).
◦
포토리얼리스틱 비주얼, 클라우드 스트리밍.
◦
Urban Chaos, Coastal Drift 데모.
•
한계:
◦
시각적 결함, 프롬프트 지연.
◦
오픈소스 미제공.
◦
데이터 저작권 문제 가능.
•
응용: 게임, 메타버스, 창의적 플랫폼.
2.7. Odyssey (Odyssey AI Lab)
•
특징:
◦
입력: 키보드, 컨트롤러, 스마트폰(향후 음성).
◦
성능: 30 FPS, 5분 이상, 40ms 프레임 생성.
◦
기술: 오토리그레시브 세계 모델, 좁은 분포 모델, 360도 카메라 데이터.
◦
데이터: 실제 360도 비디오.
•
강점:
◦
실제 세계 데이터로 사실적 픽셀/공간 일관성.
◦
교육, 관광, 영화 등 광범위 응용.
◦
$1~2/시간의 저비용 인프라.
•
한계:
◦
흐릿한 텍스처, 불안정한 레이아웃.
◦
오픈소스 미제공.
◦
좁은 분포 모델로 일반화 제한.
•
응용: 영화, 게임, 교육, 가상 관광.
2.8. Hunyuan-GameCraft (Tencent Hunyuan)
•
특징:
◦
입력: 이미지, 텍스트, 키보드/마우스.
◦
성능: 720p, FPS 미공개, 장기 시퀀스.
◦
기술:
▪
통합된 행동 제어, 하이브리드 역사 조건 훈련.
▪
경량 행동 인코더, 모델 증류, FP8 최적화.
◦
데이터: 100만 개 이상 AAA 게임 플레이(100+ 게임).
•
강점:
◦
오픈소스.
◦
제1인칭/제3인칭 시점, 다양한 스타일 지원.
◦
시각 충실도와 행동 제어 우수.
•
한계:
◦
FPS 정보 부족.
◦
AAA 게임 데이터로 저작권 문제 가능.
◦
24GB 이상 GPU 필요.
•
응용: 게임 개발, 비디오 제작, 3D 디자인.
3. 기술적 특징 비교
모델 | 입력 방식 | 성능 (FPS/해상도) | 데이터 소스 | 오픈소스 | 주요 기술 | 응용 분야 |
Genie 3 | 텍스트, 내비게이션 | 24 FPS, 720p | 비공개, 게임 중심 | 제한적 | 오토리그레시브, 긴 맥락 창 | 게임, 로보틱스, 교육 |
Yan | 텍스트, 이미지, 행동 | 60 FPS, 1080p | 비공개, 게임 중심 | 불명확 | 고압축 VAE, 다중 모달 DiT, 편집 | 게임, 콘텐츠 편집 |
Matrix-Game 2.0 | 시각, 키보드/마우스 | 25 FPS | Unreal Engine, GTA5 (1200시간) | 제공 | 3D 인과적 VAE, KV 캐싱 | 게임, 자율주행, 메타버스 |
Yume | 이미지(프리뷰), 키보드 | FPS 미공개 | Sekai 데이터셋 | 제공 | QCM, MVDT, AAM/TTS-SDE | 게임, 체화된 AI |
Epona | 주행 맥락, 궤적 | FPS 미공개, 2분 | NuPlan, NuScenes, 중국 데이터 | 제공 | 시공간 분리, Chain-of-Forward, DCAE | 자율주행 |
Mirage | 자연어, 키보드, 컨트롤러 | 16 FPS, SD | 게임, 인간 플레이 데이터 | 미제공 | 트랜스포머 확산, KV 캐싱 | 게임, 메타버스, 창의적 플랫폼 |
Odyssey | 키보드, 컨트롤러, 스마트폰 | 30 FPS, 5분 | 실제 세계 360도 비디오 | 미제공 | 좁은 분포 모델, 오토리그레시브 | 영화, 게임, 교육, 관광 |
Hunyuan-GameCraft | 이미지, 텍스트, 키보드/마우스 | 720p, FPS 미공개 | AAA 게임 100만+ 플레이 | 제공 | 하이브리드 역사 조건, 행동 인코더 | 게임, 비디오 제작, 3D 디자인 |
4. 공통점 및 차별점
•
공통점:
◦
오토리그레시브 접근: 프레임별 예측으로 실시간 상호작용 지원.
◦
확산 모델 활용: DiT, VAE 등으로 고품질 비디오 생성.
◦
시간적·공간적 일관성: KV 캐싱, 역사 조건 훈련 등으로 오류 축적 최소화.
◦
다양한 입력: 텍스트, 이미지, 행동, 궤적 등 다중 모달 지원.
•
차별점:
◦
도메인 특화: Epona(자율주행), Mirage(UGC 게임), Odyssey(실제 세계 기반).
◦
성능: Yan(60 FPS, 1080p)이 최고 성능, Mirage(16 FPS)와 Epona(2분)는 제한적.
◦
데이터: Odyssey(실제 세계), Matrix-Game/Hunyuan(대규모 게임 데이터), Epona(주행 데이터).
◦
오픈소스: Matrix-Game 2.0, Yume, Epona, Hunyuan-GameCraft 제공, Genie 3와 Mirage는 제한적/미제공.
5. 응용 가능성
•
게임: Mirage, Hunyuan-GameCraft, Yan은 UGC와 프로토타이핑에 강점.
•
자율주행: Epona는 실시간 경로 계획과 교통 시뮬레이션에 특화.
•
엔터테인먼트: Odyssey는 영화, 교육, 가상 관광에 확장 가능.
•
교육/훈련: Genie 3, Yume, Odyssey는 가상 학습 환경 제공.
•
메타버스: Matrix-Game 2.0, Mirage는 가상 인간과 몰입형 세계에 기여.
6. 한계 및 도전 과제
•
오토리그레시브 불안정성: 장기 예측에서 오류 축적 가능성.
•
데이터 저작권: Matrix-Game 2.0, Hunyuan-GameCraft의 게임 데이터 사용으로 법적 문제 우려.
•
하드웨어 요구: Hunyuan(24GB GPU), Epona(단일 4090 GPU), Odyssey($1~2/시간).
•
일반화: Odyssey의 좁은 분포 모델, Epona의 자율주행 특화로 범용성 제한.
•
시각 품질: Odyssey와 Mirage는 흐릿한 텍스처, 불안정한 레이아웃 문제.
7. 결론
월드 모델은 실시간 상호작용 비디오 생성의 핵심 기술로, Genie 3, Yan, Matrix-Game 2.0, Yume, Epona, Mirage, Odyssey, Hunyuan-GameCraft가 각기 다른 도메인과 기술로 발전을 이끌고 있다. Genie 3는 실시간 상호작용, 사실적 물리·생태 구현, 긴 맥락 창, SIMA 통합, 게임·로보틱스 등 다양한 응용 가능성을 제공한다. Yan은 고해상도와 속도, Epona는 자율주행, Mirage는 UGC, Odyssey는 실제 세계 기반 경험에서 강점을 보이며, Matrix-Game 2.0과 Hunyuan-GameCraft는 대규모 게임 데이터로 범용성을 확보했다. 오픈소스 제공과 데이터 다양성, 하드웨어 효율성 개선이 향후의 주요한 과제로 보인다.




