닫기

글로벌이코노믹

[실리콘 디코드] 생성형 AI, 다음 격전지는 '공간 지능'

글로벌이코노믹

[실리콘 디코드] 생성형 AI, 다음 격전지는 '공간 지능'

'AI 대모' 페이페이 리 "현 LLM, 물리적 상식은 유아 수준"
엔비디아 '코스모스' 등 '월드 모델' 부상…"현실 이해가 진짜 지능"
사진=오픈AI의 챗GPT-5가 생성한 이미지이미지 확대보기
사진=오픈AI의 챗GPT-5가 생성한 이미지
1950년 앨런 튜링은 '기계가 생각할 수 있는가?'라는 질문을 던졌다. 75년이 흐른 지금도 이 질문은 유효하며, 인공지능(AI)은 이 질문에 대한 해답을 찾는 데 핵심적인 역할을 하고 있다.

지난 15일(현지 시각) IT 전문매체 디지타임스에 따르면 'AI 대모'로 불리는 페이페이 리 스탠퍼드대학 교수 겸 월드랩스(World Labs) 공동 창업자가 "공간 지능(spatial intelligence)이 생성형 AI의 미래"라고 선언했다. 리 교수는 최근 발표한 에세이를 통해 공간 지능의 정의와 중요성 그리고 이 능력을 구현할 수 있는 '월드 모델(world models)' 구축 방안을 제시하며 AI 기술의 새로운 지평을 예고했다.

이러한 흐름에 발맞춰 빅테크 기업들은 이미 발 빠른 움직임을 보이고 있다. 젠슨 황 엔비디아 최고경영자(CEO)는 지난 'CES 2025'에서 세계 최초의 '월드 파운데이션 모델'인 '코스모스(Cosmos)'를 공개했다. 코스모스의 핵심 목표는 AI가 단순히 창의적인 텍스트나 이미지를 생성하는 수준을 넘어 물리적 세계를 본질적으로 이해하도록 가르치는 데 있다.

'월드 모델'은 엔비디아를 비롯해 구글·메타 등 거대 기업들 사이의 새로운 격전지로 부상하는 양상이다. 업계는 이것이 AI 기술의 패러다임이 기존의 언어 처리 중심에서 벗어나 현실 세계의 물리학과 공간 역학을 모방하고 시뮬레이션하는 더 깊은 차원의 이해로 이동하고 있음을 시사하는 중요한 신호로 분석한다.

LLM의 한계, '어둠 속 장인'


리 교수는 현재 AI 시스템, 특히 대규모언어모델(LLM)이 가진 근본적인 한계를 명확히 지적한다. LLM은 유창한 텍스트를 생산하고, 코드를 작성하며, 이미지를 창조해낼 수 있지만 본질적으로는 '어둠 속의 장인(artisans in the dark)'에 불과하다는 분석이다.

이는 AI가 '말은 유창하지만 경험이 부족하고, 지식은 박식하지만 현실에 기반하지 못한다'는 의미다. 실제로 현 AI는 거리 추정, 물체 회전, 물리적 상호작용 예측과 같은 기본적인 공간 작업을 마주했을 때 '무작위 추측보다 나을 것이 없는' 형편없는 성능을 보이곤 한다. 리 교수는 이 같은 취약점이 AI의 핵심 능력인 '공간 지능'의 부재에서 비롯된다고 진단했다.

리 교수는 공간 지능을 "인간 인지의 비계(scaffolding of human cognition)"라고 정의한다. 자동차 주차, 날아오는 공 잡기, 컵에 커피 따르기와 같은 일상적인 활동부터 연기로 가득 찬 방 안에서 소방관이 내려야 하는 순간적인 판단에 이르기까지 인간의 모든 활동을 뒷받침하는 근간이라는 설명이다. 공간 지능은 단순한 시각적 인식을 넘어 지각, 행동, 상상력, 창의성을 통합하는 고차원적인 능력이다.

LLM이 인간의 추상적 지식 접근과 적용 방식에 혁명을 일으킨 것은 사실이지만, 리 교수는 이 시스템들이 여전히 "현실과 분리되어 있다"고 경고한다. 반면 공간 지능은 사람들이 실제 세계 및 가상 세계와 창조하고 상호 작용하는 방식을 근본적으로 재편할 잠재력을 지닌다. 스토리텔링, 창의성, 로보틱스, 과학적 발견 등 다방면에 걸쳐 변혁을 일으키며 AI를 다음 단계로 끌어올릴 핵심 열쇠로 지목된다.

인식·행동 잇는 '월드 모델', AI 새 지평 연다

현 AI의 '치명적인 결함'은 "언어는 이해하지만, 세계는 이해하지 못한다"는 문장으로 요약된다. 현재의 AI 시스템은 방대한 추상적 지식을 보유하고 있으나 '어느 정도의 힘이 컵을 쓰러뜨리는지' 또는 '모퉁이를 돌 때 충돌 위험이 있는지'와 같은 물리적 현실에 대한 '상식적 이해'가 거의 전무하다.

바로 이 격차가 오늘날 로봇이 여전히 '유아처럼 비틀거리며' 넘어지고, 몰입형 메타버스 경험이 '손에 잡히지 않는 꿈'으로 남아있는 이유를 설명한다.

따라서 AI 분야의 다음 주요 돌파구는 더 많은 텍스트를 생성하는 것에서 나오지 않을 전망이다. 리 교수는 '공간 지능의 잠금 해제'가 진정한 혁신을 이끌 것이며, 이 공간 지능이야말로 '인식, 상상, 행동을 연결하는 다리' 역할을 한다고 강조한다.

복잡다단한 현실 세계의 도전을 해결하기 위해 AI는 반드시 '월드 모델'을 통해 공간 지능을 습득해야 한다. 월드 모델은 가상 및 물리적 환경의 복잡성을 이해하고, 추론하며, 창조하고, 상호 작용할 수 있는 '새로운 유형의 생성 시스템'으로 정의된다.

비록 이 분야는 아직 초기 단계에 머물러 있지만 리 교수는 성공적인 월드 모델이 갖춰야 할 세 가지 핵심 능력을 다음과 같이 식별했다. 첫째, 물리적으로 일관되고 공간적으로 조화로운 세계를 만들어내는 '생성 능력'. 둘째, 이미지, 비디오, 심지어 행동(actions)까지 포함하는 '다양한 모드(multimodal)의 입력을 처리하는 능력'. 셋째, 시간의 경과에 따라 '진화하는 상태를 예측하고 상호 작용하는 능력'이다.

리 교수와 그녀의 팀은 '월드랩스'에서 이러한 월드 모델링을 발전시키기 위한 차세대 데이터 프레임워크, 모델 아키텍처, 학습 표현(learning representations)을 적극 개발 중이다. 25년간 AI 분야에 몸담아온 리 교수는 "진정한 지능은 언어 하나만으로는 불완전하며, 물리적 세계와의 공간적 인식 및 상호작용에 달려 있다"고 결론지었다.


박정한 글로벌이코노믹 기자 park@g-enews.com