닫기

글로벌이코노믹

LLM 한계 벗어난 '세계 모델'에 60억 달러 쏠렸다…'현실 이해' AI, 산업 판도 바꾼다

글로벌이코노믹

LLM 한계 벗어난 '세계 모델'에 60억 달러 쏠렸다…'현실 이해' AI, 산업 판도 바꾼다

얀 르쿤 "5년 내 LLM 시대 종말" 예고…베조스, 엔지니어링 집중 신규 AI에 거액 투자
대규모 언어 모델(LLM)이 가진 현실 세계 이해의 한계를 넘어, 물리적 환경을 시뮬레이션하고 예측할 수 있는 차세대 인공지능(AI) 기술인 '세계 모델(World Model)' 개발 경쟁이 글로벌 AI 업계의 새로운 전선으로 떠오르고 있다. 이미지=GPT4o이미지 확대보기
대규모 언어 모델(LLM)이 가진 현실 세계 이해의 한계를 넘어, 물리적 환경을 시뮬레이션하고 예측할 수 있는 차세대 인공지능(AI) 기술인 '세계 모델(World Model)' 개발 경쟁이 글로벌 AI 업계의 새로운 전선으로 떠오르고 있다. 이미지=GPT4o
대규모 언어 모델(LLM)이 가진 현실 세계 이해의 한계를 넘어, 물리적 환경을 시뮬레이션하고 예측할 수 있는 차세대 인공지능(AI) 기술인 '세계 모델(World Model)' 개발 경쟁이 글로벌 AI 업계의 새로운 전선으로 떠올랐다고 악시오스가 지난 17일(현지시각) 보도했다.

AI 분야 최고 권위자인 페이페이 리(Fei-Fei Li)가 설립한 월드 랩(World Labs)이 첫 상업용 제품 '마블(Marble)'을 출시한 가운데, 'AI 3대 천왕'으로 불리는 얀 르쿤(Yann LeCun) 메타(Meta) 수석 AI 과학자도 수개월 안에 회사를 떠나 세계 모델 스타트업을 시작할 계획인 것으로 알려졌다.

이와 함께 제프 베조스가 엔지니어링 및 제조에 중점을 둔 신규 AI 회사 '프로젝트 프로메테우스(Project Prometheus)'60억 달러(87900억 원) 이상을 투자하며 공동 최고경영자(CEO)를 맡을 것이라는 보도도 나오면서, AI의 초점이 언어에서 현실 이해로 이동하는 'AI 2.0 시대'가 본격화하고 있다는 분석이 지배적이다.

'다음 단어 예측' 넘어 '다음 현실 예측' 시대로


현재 AI 산업을 주도하는 대규모 언어 모델(LLM)은 방대한 텍스트 데이터를 학습해 뛰어난 학문적 지식과 언어 능력을 보여주지만, 현실 세계가 실제로 어떻게 돌아가는지에 대한 감각은 거의 없다는 한계가 명확하다. 이에 AI 분야의 저명인사들을 중심으로 언어의 영역을 넘어 물리적 현실을 이해하고 시뮬레이션할 수 있는 '세계 모델'을 개발하는 움직임이 가속화하고 있다.

세계 모델은 비디오 시청, 시뮬레이션 데이터 소화 그리고 기타 공간 입력을 통해 학습하며, 사물, 장면, 그리고 물리적 역학에 대한 내부적 표현을 구축하는 방식으로 작동한다. 이는 다음 단어를 예측하는 언어 모델과 달리, 중력, 인과 관계, 사물의 지속성 같은 개념을 명시적으로 프로그래밍하지 않아도 스스로 이해해 세상에서 다음에 무슨 일이 일어날지 예측하는 것을 목표로 한다. , 시간이 흐름에 따라 사물이 어떻게 움직이고, 충돌하며, 상호 작용하는지 모델링하는 것이다.

머신 러닝 분야의 거장 얀 르쿤 메타 수석 AI 과학자는 매사추세츠 공과대학교(MIT) 심포지엄에서 "3~5년 안에 이 LLM이 아닌 세계 모델이 AI 아키텍처의 주요 모델이 될 것이며, 제정신인 사람이라면 오늘날 우리가 가진 유형의 LLM을 쓰는 이는 아무도 없을 것"이라고 주장했다. 이는 월스트리트 저널(WSJ)의 보도를 통해 알려진 내용이다.

르쿤은 수개월 안에 메타를 떠나 세계 모델 스타트업을 시작할 계획을 가지고 있으며, 이 움직임은 LLM 중심의 현 AI 패러다임에 대한 근본적인 도전을 시사한다.

세계 모델은 로봇공학, 자율주행, 비디오 게임 제작 등 현실 세계의 행동과 계획이 필요한 모든 분야에 필수적인 AI로 평가된다. 특히, 로봇이 잡으려던 물체를 놓쳤을 때 다음 동작을 유추하게 돕는 메타의 'V-JEPA 2'와 같은 모델이나, 구글 딥마인드(Google DeepMind)의 게임 및 시뮬레이션 환경 구축 모델 '지니(Genie)' 개발은 이 기술이 현실 세계로 확장되는 구체적 사례로 업계는 파악한다.

제프 베조스 60억 달러 투자…글로벌 기업 경쟁 가열

세계 모델 경쟁은 전 세계적인 현상이며, 막대한 투자와 함께 진행되고 있다. 스탠퍼드 대학교 교수이자 컴퓨터 비전 분야의 선구자로 알려진 페이페이 리가 설립한 스타트업 월드 랩은 최근 첫 상업용 세계 모델 제품인 '마블(Marble)'을 발표하며 선두 주자로서의 입지를 다졌다.

'마블'은 텍스트, 비디오, 3차원(3D) 레이아웃 등 다양한 입력값을 바탕으로 3D 환경을 생성하고 편집할 수 있는 다중 모드 생성형 모델로, 게임, 시각 특수 효과(VFX) 그리고 가상현실(VR) 등의 작업 흐름에 활용할 수 있도록 설계됐다. 월드 랩은 지난해 23000만 달러(3370억 원)의 투자를 유치한 것으로 알려졌다.

이와 관련하여 뉴욕타임스(NYT)는 지난 17일 제프 베조스가 엔지니어링과 제조에 중점을 둔 새로운 AI 회사인 '프로젝트 프로메테우스'를 설립하고 공동 CEO를 맡을 것이라고 보도했다. 이 회사는 60억 달러(87900억 원)가 넘는 자금 지원을 받은 것으로 알려져, AI의 다음 단계에 대한 거대 기술 기업 수장의 강력한 의지를 보여준다.

아시아에서도 중국의 텐센트를 포함한 기술 기업들이 물리학과 3차원 데이터에 대한 이해를 포함하는 세계 모델 개발에 집중하고 있다. 또한, 아랍에미리트(UAE)의 모하메드 빈 자이드 인공지능 대학교(MBZUAI)는 지난주 첫 세계 모델 'PAN'을 발표하며 중동발() AI 혁신의 움직임을 가시화했다. OpenAI가 더 나은 비디오 모델 구축이 세계 모델로 나아가는 길이라고 언급한 것처럼, 구글과 메타 역시 로봇 공학과 비디오 모델을 더욱 현실적으로 만들기 위해 세계 모델 개발에 역량을 집중하고 있다.

세계 모델의 성장통, '대규모 멀티모드 데이터' 확보가 관건


세계 모델 개발에는 막대한 양의 학습 데이터가 필요하다는 점이 핵심 난관으로 지적된다. 기존 언어 모델이 인터넷상의 방대한 텍스트 정보를 활용할 수 있었던 것과 달리, 세계 모델이 필요로 하는 정보는 통합되거나 쉽게 구할 수 있는 데이터가 아니기 때문이다.

이미지, 비디오, 텍스트, 오디오 그리고 3D 포인트 클라우드에 걸쳐 10억 개의 데이터 쌍을 포함하는 오픈 소스 데이터 세트를 제공하는 엔코드(Encord)의 울릭 스티그 한센(Ulrik Stig Hansen) 공동 창립자 겸 사장은 이메일 인터뷰를 통해 "개발도상국 모델에 있어 가장 큰 장애물 중 하나는 에이전트가 물리적 환경을 어떻게 인식하고 상호 작용하는지 파악하는 데 필요한 대규모의 고품질 다중 모드 데이터가 필요하다는 사실"이라고 밝혔다. 엔코드가 제공하는 데이터 세트 역시 "단지 기준일 뿐"이며, "생산 시스템에는 훨씬 더 많은 것이 필요할 것"이라고 그는 덧붙였다.

세계 모델은 '디지털 트윈'이라는 개념과도 연결되는데, 이는 특정 장소나 환경의 디지털 복제본을 만들어 실시간 센서 데이터를 통해 원격 모니터링이나 유지 관리 예측을 가능하게 하는 것이다. 이는 물리적 환경의 구조와 역학을 이해해야 한다는 점에서 세계 모델의 작동 원리와 궤를 같이 한다.

세계 모델의 다양한 용도는 분명하지만, 언어 모델만큼 빠르게 발전할 수 있을지는 아직 미지수다. 하지만 이 분야가 새로운 관심과 함께 대규모 투자 물결의 수혜를 받고 있는 것은 분명하다. 업계에서는 이 '현실 이해' 기반의 차세대 AI가 로봇, 자율주행 등 실생활에 직접적으로 영향을 미치는 분야에서 혁신을 이끌어낼 것으로 보고 있다.


박정한 글로벌이코노믹 기자 park@g-enews.com