Search

World Model of World Models : 지금 까지(2025.08)의 월드 모델들.

디자인

개요

월드 모델(World Model)은 AI 시스템이 환경의 상태와 사용자 행동을 기반으로 다음 상태를 예측하여 동적이고 상호작용 가능한 비디오를 생성하는 기술이다. 이는 AGI(인공지능 일반)로의 발전과 게임, 자율주행, 엔터테인먼트, 교육 등 다양한 분야에서 혁신을 가능하게 할 것으로 보인다. 여기서는 Google DeepMind의 Genie 3, Yan Team의 Yan, Skywork AI의 Matrix-Game 2.0, Shanghai AI Lab의 Yume, Horizon Robotics의 Epona, Dynamics Lab의 Mirage, Odyssey의 Interactive Video, Tencent Hunyuan의 Hunyuan-GameCraft를 중심으로 월드 모델의 특징, 기술적 접근, 성능, 응용 가능성을 정리한다.

1. 월드 모델이란?

정의: 월드 모델은 현재 상태, 과거 상태 이력, 사용자 행동을 입력으로 받아 다음 프레임(세계 상태)을 예측하는 오토리그레시브 모델이다. 비디오 모델(고정된 클립 생성)과 달리, 실시간 상호작용과 유연한 미래 예측이 가능하게 한다.
핵심 요소:
행동 조건화: 키보드, 마우스, 텍스트, 궤적 등의 입력을 처리.
시간적·공간적 일관성: 장기 시퀀스에서 환경과 객체의 일관성 유지.
실시간 성능: 낮은 지연 시간으로 프레임별 생성.
응용 분야: 게임, 자율주행, 교육, 가상 인간, 로보틱스.

2. 주요 월드 모델 비교

2.1. Genie 3 (Google DeepMind)

특징:
입력: 텍스트 프롬프트 기반, 내비게이션 입력, 프롬프트 기반 세계 이벤트.
성능: 720p, 24 FPS, 몇 분간 일관성 유지.
기술: 오토리그레시브 프레임 생성, 긴 맥락 창(1분)으로 시각적 메모리 유지.
데이터: 비공개, 게임 및 시뮬레이션 환경 중심.
강점:
물리적 특성(물, 조명), 자연 생태계, 상상 속 시나리오, 역사적 배경 생성.
SIMA 에이전트와 통합, AGI 연구에 기여.
한계:
제한된 행동 공간, 다중 에이전트 상호작용 미흡.
실제 장소의 지리적 정확도 부족, 텍스트 렌더링 제한.
오픈소스 미제공, 제한된 연구 미리보기 제공.
응용: 게임, 로보틱스, 교육, 훈련.

2.2. Yan (Yan Team)

출처:
특징:
입력: 텍스트, 이미지, 행동 기반 제어.
성능: 1080p, 60 FPS, 장기 시퀀스 지원.
기술:
Yan-Sim: 고압축 VAE, DDIM 샘플링, 모델 프루닝/양자화.
Yan-Gen: 다중 모달 확산 트랜스포머(DiT), 교차 주의 레이어.
Yan-Edit: 구조적/스타일 편집, 깊이 맵 연결.
데이터: 비공개, 게임 환경 중심.
강점:
높은 해상도와 프레임 속도, 다중 세분화 편집(구조/스타일).
닫힌 도메인부터 오픈월드까지 적응적 합성.
한계:
오픈소스 여부 불명확.
복잡한 다중 에이전트 상호작용 미지원.
응용: 게임, 오픈월드 시뮬레이션, 콘텐츠 편집.

2.3. Matrix-Game 2.0 (Skywork AI)

특징:
입력: 시각 콘텐츠, 키보드/마우스 행동.
성능: 25 FPS, 분 단위 비디오 생성.
기술: 3D 인과적 VAE, 다중 모달 DiT, 자기강제 훈련, KV 캐싱.
데이터: Unreal Engine, GTA5 기반 1200시간 게임 데이터.
강점:
오픈소스.
GameWorld Score 벤치마크에서 이미지 품질(0.61), 시간적 일관성(0.94), 입력 정확도(0.91/0.95) 우수.
다양한 장면 스타일(GTA, Minecraft, TempleRun).
한계:
환경 일관성 결함(예: 호수/건물 급변).
GTA5 데이터 사용으로 저작권 문제 가능.
응용: 게임 프로토타이핑, 자율주행, 가상 인간, 메타버스.

2.4. Yume (Shanghai AI Lab)

특징:
입력: 현재 이미지(프리뷰), 향후 텍스트/비디오/신경 신호 목표.
성능: FPS 미공개, 장기 시퀀스 지원.
기술:
카메라 모션 양자화(QCM)로 직관적 키보드 제어.
Masked Video Diffusion Transformer(MVDT)로 무한 생성.
Anti-Artifact Mechanism(AAM), Time-Travel SDE(TTS-SDE)로 품질/일관성 개선.
적대적 증류/캐싱으로 3배 효율성 향상.
데이터: Sekai 세계 탐색 데이터셋.
강점:
오픈소스, 매달 업데이트.
다양한 장면에서 품질 우수.
한계:
프리뷰 버전(이미지 기반), 신경 신호 미구현.
FPS 정보 부족.
응용: 게임, 체화된 AI, 가상 탐색.

2.5. Epona (Horizon Robotics)

특징:
입력: 주행 맥락, 궤적 입력.
성능: 최대 2분, FPS 미공개, 고해상도.
기술:
시공간 분리 팩토라이제이션, 모듈식 궤적/비디오 예측.
Chain-of-Forward 훈련, Denoising Convolutional Autoencoder(DCAE).
데이터: NuPlan, NuScenes, 중국 주행 데이터.
강점:
오픈소스.
NAVSIM 벤치마크에서 단대단 플래너 상회, 7.4% FVD 개선.
자율주행 특화, 교통 규칙 이해.
한계:
카메라 입력 제한(일부 전면 카메라만 사용).
데이터 의존성(자율주행 환경에 특화).
응용: 자율주행, 교통 시뮬레이션.

2.6. Mirage (Dynamics Lab)

특징:
입력: 자연어, 키보드, 컨트롤러.
성능: 16 FPS, 10분 이상 플레이, SD 화질.
기술: 대규모 트랜스포머 기반 확산 모델, KV 캐싱, 고급 증류.
데이터: 인터넷 게임 데이터, 인간 플레이 녹화.
강점:
UGC 2.0: 실시간 환경 생성/변경(예: 골목, 차량 추가).
포토리얼리스틱 비주얼, 클라우드 스트리밍.
Urban Chaos, Coastal Drift 데모.
한계:
시각적 결함, 프롬프트 지연.
오픈소스 미제공.
데이터 저작권 문제 가능.
응용: 게임, 메타버스, 창의적 플랫폼.

2.7. Odyssey (Odyssey AI Lab)

특징:
입력: 키보드, 컨트롤러, 스마트폰(향후 음성).
성능: 30 FPS, 5분 이상, 40ms 프레임 생성.
기술: 오토리그레시브 세계 모델, 좁은 분포 모델, 360도 카메라 데이터.
데이터: 실제 360도 비디오.
강점:
실제 세계 데이터로 사실적 픽셀/공간 일관성.
교육, 관광, 영화 등 광범위 응용.
$1~2/시간의 저비용 인프라.
한계:
흐릿한 텍스처, 불안정한 레이아웃.
오픈소스 미제공.
좁은 분포 모델로 일반화 제한.
응용: 영화, 게임, 교육, 가상 관광.

2.8. Hunyuan-GameCraft (Tencent Hunyuan)

특징:
입력: 이미지, 텍스트, 키보드/마우스.
성능: 720p, FPS 미공개, 장기 시퀀스.
기술:
통합된 행동 제어, 하이브리드 역사 조건 훈련.
경량 행동 인코더, 모델 증류, FP8 최적화.
데이터: 100만 개 이상 AAA 게임 플레이(100+ 게임).
강점:
오픈소스.
제1인칭/제3인칭 시점, 다양한 스타일 지원.
시각 충실도와 행동 제어 우수.
한계:
FPS 정보 부족.
AAA 게임 데이터로 저작권 문제 가능.
24GB 이상 GPU 필요.
응용: 게임 개발, 비디오 제작, 3D 디자인.

3. 기술적 특징 비교

모델
입력 방식
성능 (FPS/해상도)
데이터 소스
오픈소스
주요 기술
응용 분야
Genie 3
텍스트, 내비게이션
24 FPS, 720p
비공개, 게임 중심
제한적
오토리그레시브, 긴 맥락 창
게임, 로보틱스, 교육
Yan
텍스트, 이미지, 행동
60 FPS, 1080p
비공개, 게임 중심
불명확
고압축 VAE, 다중 모달 DiT, 편집
게임, 콘텐츠 편집
Matrix-Game 2.0
시각, 키보드/마우스
25 FPS
Unreal Engine, GTA5 (1200시간)
제공
3D 인과적 VAE, KV 캐싱
게임, 자율주행, 메타버스
Yume
이미지(프리뷰), 키보드
FPS 미공개
Sekai 데이터셋
제공
QCM, MVDT, AAM/TTS-SDE
게임, 체화된 AI
Epona
주행 맥락, 궤적
FPS 미공개, 2분
NuPlan, NuScenes, 중국 데이터
제공
시공간 분리, Chain-of-Forward, DCAE
자율주행
Mirage
자연어, 키보드, 컨트롤러
16 FPS, SD
게임, 인간 플레이 데이터
미제공
트랜스포머 확산, KV 캐싱
게임, 메타버스, 창의적 플랫폼
Odyssey
키보드, 컨트롤러, 스마트폰
30 FPS, 5분
실제 세계 360도 비디오
미제공
좁은 분포 모델, 오토리그레시브
영화, 게임, 교육, 관광
Hunyuan-GameCraft
이미지, 텍스트, 키보드/마우스
720p, FPS 미공개
AAA 게임 100만+ 플레이
제공
하이브리드 역사 조건, 행동 인코더
게임, 비디오 제작, 3D 디자인

4. 공통점 및 차별점

공통점:
오토리그레시브 접근: 프레임별 예측으로 실시간 상호작용 지원.
확산 모델 활용: DiT, VAE 등으로 고품질 비디오 생성.
시간적·공간적 일관성: KV 캐싱, 역사 조건 훈련 등으로 오류 축적 최소화.
다양한 입력: 텍스트, 이미지, 행동, 궤적 등 다중 모달 지원.
차별점:
도메인 특화: Epona(자율주행), Mirage(UGC 게임), Odyssey(실제 세계 기반).
성능: Yan(60 FPS, 1080p)이 최고 성능, Mirage(16 FPS)와 Epona(2분)는 제한적.
데이터: Odyssey(실제 세계), Matrix-Game/Hunyuan(대규모 게임 데이터), Epona(주행 데이터).
오픈소스: Matrix-Game 2.0, Yume, Epona, Hunyuan-GameCraft 제공, Genie 3와 Mirage는 제한적/미제공.

5. 응용 가능성

게임: Mirage, Hunyuan-GameCraft, Yan은 UGC와 프로토타이핑에 강점.
자율주행: Epona는 실시간 경로 계획과 교통 시뮬레이션에 특화.
엔터테인먼트: Odyssey는 영화, 교육, 가상 관광에 확장 가능.
교육/훈련: Genie 3, Yume, Odyssey는 가상 학습 환경 제공.
메타버스: Matrix-Game 2.0, Mirage는 가상 인간과 몰입형 세계에 기여.

6. 한계 및 도전 과제

오토리그레시브 불안정성: 장기 예측에서 오류 축적 가능성.
데이터 저작권: Matrix-Game 2.0, Hunyuan-GameCraft의 게임 데이터 사용으로 법적 문제 우려.
하드웨어 요구: Hunyuan(24GB GPU), Epona(단일 4090 GPU), Odyssey($1~2/시간).
일반화: Odyssey의 좁은 분포 모델, Epona의 자율주행 특화로 범용성 제한.
시각 품질: Odyssey와 Mirage는 흐릿한 텍스처, 불안정한 레이아웃 문제.

7. 결론

월드 모델은 실시간 상호작용 비디오 생성의 핵심 기술로, Genie 3, Yan, Matrix-Game 2.0, Yume, Epona, Mirage, Odyssey, Hunyuan-GameCraft가 각기 다른 도메인과 기술로 발전을 이끌고 있다. Genie 3는 실시간 상호작용, 사실적 물리·생태 구현, 긴 맥락 창, SIMA 통합, 게임·로보틱스 등 다양한 응용 가능성을 제공한다. Yan은 고해상도와 속도, Epona는 자율주행, Mirage는 UGC, Odyssey는 실제 세계 기반 경험에서 강점을 보이며, Matrix-Game 2.0과 Hunyuan-GameCraft는 대규모 게임 데이터로 범용성을 확보했다. 오픈소스 제공과 데이터 다양성, 하드웨어 효율성 개선이 향후의 주요한 과제로 보인다.