Search

WorldLabs Marble: 단일 이미지를 통한 3D 월드 생성의 가능성

소개

theworldlabs에서 개발한 "Marble"이라는 시스템은 단일 이미지를 기반으로 3D 세계를 생성하는 혁신적인 접근 방식을 제시한다. Fei-Fei Li이 x에 공유한 내용과 와 JieWang_ZJUI이 사용하면서 관찰을 바탕으로 Marble의 기능과 의의를 살펴본다.
Fei-Fei Li의 x 포스트
“이제 genAI에서는 한 장의 그림이 천 마디 말보다 더 가치가 있다. 한 장의 이미지는 이제 3D 세계로 완벽하게 변환될 수 있다! 그리고 이 정원을 끝없이 거닐어도, 그 정원은 여전히 그곳에 있을 것이다.”

Fei-Fei Li 교수와 World Labs

Fei-Fei Li 교수는 Stanford University의 컴퓨터 과학 교수로, AI와 특히 컴퓨터 비전 분야에서 세계적으로 인정받고있다. 그녀는 ImageNet 데이터셋을 개발하여 딥러닝의 기초를 다졌으며, AI ethics와 human-centered AI 연구에서도 선구자적인 역할을 했다. 2025년 기준, 그녀는 World Labs의 창립자이자 CEO로 활동하며, AI 기술을 실생활에 적용하는 데 중점을 두고 있다. World Labs는 Fei-Fei Li 교수가 창립한 스타트업으로, AI를 통해 3D 세계를 생성하고 탐색할 수 있는 기술을 개발하는 데 초점을 맞추고 있다. Marble은 World Labs에서 개발한 AI 시스템으로, 단일 이미지를 기반으로 3D 세계를 생성하는 기술을 구현한다. Marble은 2025년 8월 현재 초기 베타 버전(0.1-plus)으로, JieWang_ZJUI가 X에서 공유한 바에 따르면, 이미지를 통해 360도 탐색이 가능한 가상 환경을 생성할 수 있다. Marble은 World Labs의 핵심 프로젝트 중 하나로, Fei-Fei Li 교수의 비전이 기술적으로 실현된 사례이다.
2024년에 Blog에서 발표한 내용을 보면 Hunyuan World Model과 동일 컨셉의 연구를 하고 있던 것으로 보인다.(이 부분 확인이 필요.)

Tencent Hunyuan WorldModel 1.0

Hunyuan World Model 1.0 관련된 내용과 태스트 Hunyuan3D World Model
HunyuanWorld-1.0
Tencent-Hunyuan

주요 기능

1. 쉬운 사용성

Marble은 사용자가 이미지를 업로드하기만 하면 3D 세계를 자동으로 생성한다. 프롬프트를 수정할 필요가 없어, 누구나 쉽게 접근할 수 있는 도구이다. 예를 들어, GRASP Lab이라는 실험실의 내부 이미지를 입력했을 때, Marble은 해당 장면을 3D로 재현하며, 사용자는 이 세계를 자유롭게 탐색할 수 있다.

2. 숨겨진 부분의 "환상"

Marble의 가장 흥미로운 점은 이미지에 보이지 않는 부분을 창의적으로 생성한다는 것이다. 예를 들어, 실험실의 구석구석을 탐색하다 보면, 입력 이미지에는 없던 인간형 로봇이나 불꽃 소화기가 등장할 수 있다. 이는 AI가 데이터를 기반으로 추론하여 새로운 요소를 추가하는 능력을 보여준다. 때로는 현실감 있게, 때로는 기이한(uncanny) 결과를 낳아, 창의성과 한계가 동시에 드러난다.

3. 이미지 캡셔닝의 품질

The scene is a laboratory environment resembling a kitchen, captured in a realistic style with a functional and organized tone. The overall setup is meticulously designed for experimental purposes, rather than a typical domestic use. A large, rectangular table, covered with red and white checkered tablecloth, dominates the foreground, laden with various household items and games. At the far end of the table, a humanoid robot with multiple articulated limbs stands, positioned for interaction with the objects. To the right of the robot, a fully equipped kitchen counter with wooden cabinets, a stainless steel range hood, and a refrigerator stands against the wall, suggesting a simulated home environment. Fire extinguishers are mounted on the wall above the refrigerator, indicating advanced tracking robotic operation. A tall, light gray curtain is positioned at the left side of the room, partially obscuring the view beyond. The table is centrally placed in the room, with the robot positioned towards its far end, facing the kitchen setup. The kitchen counter and appliances line the wall to the right of the table, and the refrigerator stands at the far right end of this counter. The array of cables and sensors extends across the entire ceiling, encompassing both the table area and the kitchen. The light gray curtain stands vertically at the left edge of the room. The 360 scene is faultless.
번역
생성된 3D 세계는 입력 이미지의 캡션과 잘 맞춰진다. 예를 들어, 실험실의 복잡한 장면(예: messy kitchen scene)을 입력했을 때, Marble은 테이블, 의자, 로봇 팔과 같은 객체들을 정확히 재현한다. 이는 Marble이 텍스트-이미지 간의 강한 연관성을 가지고 있음을 시사한다.

4. 비결정성

동일한 이미지를 입력하더라도, 생성된 3D 세계가 약간씩 다를 수 있다. 이는 Marble의 비결정성 때문으로, 같은 입력에서 다양한 결과를 도출할 수 있는 유연성을 제공한다. 예를 들어, 인간형 로봇의 모습이 각기 다르게 생성될 수 있다. 이것은 장점이면서 단점이 될 수 있다. 아마도 특정분야 예를 들면 VFX에서 사용하려면 장점보다는 단점이 부각될 것이다.

5. 텍스트 프롬프트의 영향

Marble은 텍스트만으로도 3D 세계를 생성할 수 있다. 이는 시스템이 텍스트-이미지 간의 강한 연관성을 가지고 있음을 보여준다. 예를 들어, "로보틱스 실험실"이라는 텍스트 프롬프트를 입력했을 때, 생성된 세계는 실제 실험실과 비슷한 모습을 보인다.

6. 스케일의 정확성

생성된 3D 세계의 크기와 거리는 실제와 비슷하다. 이는 Marble이 현실감 있는 환경을 생성할 수 있음을 보여준다. 예를 들어, 실험실의 테이블과 의자 간의 거리가 실제와 유사하게 재현된다.

7. 제한사항

현재 Marble은 객체와 상호작용할 수 없으며, 주로 탐색에 초점이 맞춰져 있다. 또한, 익숙한 객체(테이블, 의자)는 잘 생성되지만, 새로운 객체(로봇 팔 등)는 덜 정확하다. 이는 Marble이 아직 초기 단계에 있음을 보여준다.

기술적 배경

Marble은 3D Gaussian Splatting(3DGS) 기술을 사용하여 3D 세계를 생성하는 것으로 보인다. 이는 이미지로부터 3D 구조를 추출하고, 이를 기반으로 가상 환경을 구축하는 방식이다. 3DGS는 밀도 있는 3D 표현을 가능하게 하며, AI 연구에서 중요한 역할을 할 것으로 기대된다.

의의와 전망

Marble은 로보틱스 학습과 s2r(simulation-to-real) 학습에서 중간층으로 활용될 가능성을 가지고 있다. AI가 생성한 3D 세계는 로봇의 탐색 및 계획 수립에 도움을 줄 수 있으며, 향후 객체 상호작용 기능이 추가될 경우 더 많은 응용이 기대된다.
Fei-Fei Li 교수의 비전과 World Labs의 기술은 AI가 어떻게 우리의 세계를 확장하고, 새로운 경험을 제공할 수 있는지에 대한 통찰을 제공한다.
Marble의 사례는 AI 기술이 어떻게 현실 세계를 이해하고, 이를 가상 환경으로 변환하는 데 어떻게 기여할 수 있는지를 보여준다.

결론

Marble은 AI를 통해 3D 세계를 생성하는 새로운 가능성을 제시한다. 사용이 간편하고, 현실감 있는 환경을 생성하지만, 아직 제한사항이 존재한다. 그러나 로보틱스 학습과 같은 분야에서 잠재력을 가지고 있으며, 향후 발전이 기대된다.