gif
개요
로보틱스 산업은 AI 기술의 발전과 함께 빠르게 성장하고 있지만, 로봇이 생성하는 방대한 데이터가 큰 도전 과제가 되고 있다. AI & Robotics 전문가 Ilir Aliu(@IlirAliu_)가 X에 게시한 스레드에서 로보틱스 데이터의 '혼란(chaos)' 문제를 지적하며, 이를 해결하는 '로보틱스 데이터 스택(robotics data stack)'의 등장에 대해 언급했다. 그는 로봇이 생성하는 테라바이트급 데이터를 효과적으로 관리하지 못하면 산업 전체가 수십억 달러의 손실을 입을 수 있다고 강조한다.
로보틱스 데이터의 규모, 기존 문제점, 그리고 최근 3년간 등장한 혁신적인 도구들(Foxglove, Rerun, Roboto AI 등)에 대해서 소개한다. 이 도구들은 데이터 시각화, 검색, 통합을 통해 엔지니어들이 '데이터 청소부'에서 '로봇 빌더'로 전환할 수 있게 돕는다.
•
스레드 배경: Ilir Aliu의 스레드는 Boston Dynamics의 Atlas 로봇이 실패하는 장면을 시각화한 비디오로 시작한다. 비디오는 로봇의 센서 데이터(포인트 클라우드, 이미지 등)가 녹색 오버레이로 표시되어 데이터의 '혼란'을 상징적으로 보여준다. 로봇 한 대가 시간당 2TB의 데이터를 생성하며, 이는 Netflix 한 달 스트리밍 데이터보다 많다. 그러나 99%의 데이터가 검색 불가능한 '디지털 쓰레기장'에 버려진다고 지적한다.
문제점: 로보틱스 데이터의 '늪지대'
로보틱스 엔지니어들은 데이터 관리로 인해 큰 비효율성을 겪고 있다. 스레드와 관련 자료에서 공통적으로 지적되는 문제는 다음과 같다:
•
데이터 규모와 형식의 다양성: 자율주행차나 로봇이 생성하는 데이터는 이미지, 포인트 클라우드, 로그, 시계열 데이터 등 다중 모달(multimodal)로 구성되며, 호환되지 않는 파일 형식(예: ROS bags)이 많다.
•
수동 관리의 한계: 엔지니어들이 Python 스크립트나 외장 하드 드라이브, 스프레드시트를 사용해 데이터를 추적하지만, 이는 '이상한 버그'가 숨겨진 500GB 로그 파일을 찾는 데 80%의 시간을 소모하게 만든다.
•
결과적 손실: 100만 달러짜리 로봇이 창고에 멈춰 서는 등의 실패가 발생하지만, 원인을 파악하기 어려워 개발 속도가 지연되고 비용이 증가한다. 이는 AI 모델 학습과 디버깅을 방해하며, 로보틱스 산업의 '숨겨진 위기'로 불린다.
이 문제는 로보틱스뿐만 아니라 물리적 AI(physical AI) 분야 전체에 적용되며, 드론, 자율주행차 등에서 유사하게 나타난다.
해결책: 새로운 로보틱스 데이터 스택의 등장
2025년 들어 로보틱스 데이터 관리를 위한 '조용한 혁명'이 일어나고 있다. 최근 3년간 등장한 도구들이 데이터 관찰 가능성(observability), 검색성(searchability), 통합 언어(unified language)를 제공한다고 설명한다. 이는 시뮬레이션과 현실 데이터를 연결하는 'sim-to-real-to-sim' 루프를 가능하게 해 AI 학습을 10배 빠르게 한다.
•
데이터 관찰 가능성 향상: 웹 브라우저에서 로봇의 시각, 생각, 행동을 시간 여행처럼 재현할 수 있다. "내 기계에서만 작동하는" 문제를 해결.
•
데이터 검색 기능: "지난 3개월 동안 물건을 쥐지 못한 모든 경우 보여줘"처럼 자연어 쿼리로 검색 가능. 수 시간 걸리던 작업이 초 단위로 단축.
•
표준화: MCAP(로보틱스용 PDF 같은 고성능 파일 형식)과 OpenLABEL(로봇 인식 객체의 범용 번역기)을 채택해 데이터 호환성을 높인다.
이 스택은 엔지니어들의 생산성을 높여, 데이터 기반으로 더 똑똑하고 안전한 AI 로봇을 개발할 수 있게 한다.
주요 플레이어: 혁신을 주도하는 스타트업들
스레드에서 언급된 주요 회사들의 기능과 최근 동향을 웹사이트와 기사에서 추출해 정리했다. 이들은 오픈소스와 클라우드 기반 플랫폼을 제공하며, 로보틱스 개발자를 대상으로 한다.
Foxglove
•
주요 기능: 로보틱스 개발자를 위한 시각화 및 관찰 플랫폼. 다중 모달 데이터(이미지, 포인트 클라우드, 로그 등)를 스트리밍하고 디버깅. 20개 이상의 커스터마이징 패널로 인터랙티브 레이아웃 생성. SDK로 실시간 모니터링 지원.
•
최근 업데이트: 2024년 3월 Foxglove 2.0 출시로 관찰 기능 강화. 월간 활성 사용자 15,000명 돌파. 무료부터 엔터프라이즈까지 유연한 가격 플랜 도입.
•
비고: 원래 오픈소스였으나, 클라우드 스토리지 통합으로 일부 기능이 유료화. ROS 기반에서 시작해 물리적 AI로 확장.
Rerun.io
•
주요 기능: 공간 및 구현 AI(embodied AI)를 위한 다중 모달 로그 처리 및 시각화. Rust로 구축된 오픈소스 도구로, 2D/3D, 텍스트, 텐서 등 데이터를 시각화. 디스크 기반 데이터 저장 계획 중.
•
최근 업데이트: 2025년 3월 1,700만 달러 시드 펀딩 유치. 클라우드 기반 데이터 플랫폼으로 물리적 AI 워크플로우 지원. 로보틱스, 시뮬레이션, 컴퓨터 비전 분야에서 사용.
•
비고: 게임 산업 경험을 바탕으로 빠르고 유연한 도구 제공. 비주얼 디버깅에 특화.
Roboto AI
•
주요 기능: 물리적 AI를 위한 분석 엔진. 다중 모달 데이터 검색, 변환, 분석 지원. ROS, PX4 등 산업 로그 형식 네이티브 지원. 유사성 검색 알고리즘으로 패턴 감지(예: 드론 하드 랜딩, 모터 이상).
•
최근 업데이트: 2024년 11월 오픈소스 신호 검색 엔진 출시. 예측 유지보수에 활용, 플릿 규모 확장 시 다운타임 감소.
•
비고: Amazon Robotics 출신 창업자들이 설립. Python SDK와 CLI로 프로그래밍 인터랙션 가능. 데이터셋 조직화와 자동화 액션 제공.
결론: 데이터 인프라가 로보틱스의 미래를 결정한다
Ilir Aliu는 로보틱스 성공의 핵심이 하드웨어가 아닌 데이터 인프라라고 결론짓는다. 이 도구들을 활용하면 반복, 디버깅, 배포가 몇 주에서 몇 시간으로 단축되어 경쟁 우위를 벌릴 수 있다. 2025년 로보틱스 산업은 이러한 '기초 레이어'를 구축하는 회사들이 주도할 전망이다. 생성 AI와 결합된 물리적 AI 분야에서 데이터 관리는 필수적이다.