오픈AI·구글 등 선두주자들 "사회 변혁" 주장... 메타도 140억 달러 투자하며 경쟁 가세
애플 등 연구진 "최신 AI, 논리 퍼즐도 못 풀어... 정확도 붕괴 현상 뚜렷"
애플 등 연구진 "최신 AI, 논리 퍼즐도 못 풀어... 정확도 붕괴 현상 뚜렷"

앤스로픽의 다리오 아모데이, 구글의 데미스 허사비스, 오픈AI의 샘 올트먼에게는 자신들의 AI가 최고라고 주장하는 것만으로는 충분하지 않다. 이 세 명은 모두 최근 자신들의 AI가 매우 뛰어나 사회의 근본을 바꿀 만큼 강력해질 것이라고 주장해왔다.
이런 주장에 회의적인 태도로 유명한 AI 최고 과학자를 둔 메타조차 이 경쟁에 뛰어들고 싶어 한다. 회사는 마크 저커버그의 꿈인 초지능 AI, 즉 우리보다 더 똑똑한 AI를 실현할 새로운 AI 책임자를 영입하기 위해 140억 달러(약 19조 1492억 원)를 투자하고 있다고 확인했다.
오픈AI의 샘 올트먼 CEO는 이번 주 한 에세이에서 "인류는 디지털 초지능 구축에 가까워지고 있다"고 선언하며, "이 때문에 특정 직업군 전체가 사라지고 새로운 사회 계약이 필요해질 것"이라고 말했다. 두 현상 모두 AI 기반 챗봇이 모든 사무직을 대체하고, AI 기반 로봇이 육체노동을 떠맡는 결과라는 것이다.
◇ "생각의 환상"… 드러나는 AI의 민낯
알렉사에게 무례했던 일을 떠올리며 불안해할 필요는 없다. 하지만 실제로 AI를 개발하고 연구하는 전문가들은 이런 주장에 동의하지 않는다. 현대 AI를 구축하고, 연구하며, 사용하는 연구자들 사이에서 이런 주장을 믿지 않는 목소리가 커지고 있다.
애플이 최근 발표한 논문 '생각의 환상(The Illusion of Thinking)'의 제목이 모든 것을 말해준다. 이 논문에서 6명의 최고 연구진은 오픈AI, 딥시크, 앤스로픽 같은 주요 AI 연구소의 추론 모델, 즉 여러 단계에 걸쳐 문제에 대해 더 오래 '생각'하는 대규모 언어 모델을 심층 분석했다. 그들은 이 모델들이 제작자들의 주장만큼 뛰어난 추론 능력을 보이지 않는다고 밝혔다.
생성형 AI는 특정 분야에서 매우 유용하며 근로자 생산성에 큰 도움이 될 수 있다. 오픈AI는 챗GPT의 달마다 활성 사용자 수가 5억 명에 이른다고 주장한다. 불과 2년 반 전에 나온 서비스치고는 놀라울 정도로 널리, 그리고 빠르게 성장한 것이다. 하지만 비평가들은 AI의 능력을 과대평가하고, 제품 자체와는 점점 더 동떨어져 보이는 발표에 기반해 사업 계획, 정책 결정, 투자를 하는 것에는 상당한 위험이 따른다고 주장한다.
애플의 논문은 같은 엔지니어 다수가 수행한 이전 연구는 물론, 학계와 세일즈포스 같은 다른 정보기술 대기업들의 주목할 만한 연구를 기반으로 한다. 이런 실험들은 자율적인 AI 에이전트와 궁극적으로 초인적 지능으로 나아가는 다음 단계로 환영받았던 오늘날의 '추론' AI가 어떤 경우에는 오히려 기존 일반 챗봇만큼 문제를 풀지 못하기도 한다는 점을 보여준다. 이 연구는 또한 AI 챗봇을 쓰든 추론 모델을 쓰든, 모든 시스템이 더 복잡한 작업에서는 완전히 실패한다는 것을 보여준다.
애플 연구진은 모델에서 "근본적인 한계"를 발견했다. 일정 수준 이상으로 복잡한 과제를 맡았을 때, 이 AI들은 "정확도가 완전히 붕괴되는 현상(complete accuracy collapse)"을 겪었다. 비슷하게, 세일즈포스 AI 연구소의 엔지니어들은 자신들의 결과가 "현재 대규모 언어 모델(LLM)의 능력과 실제 기업의 요구 사항 사이에 상당한 격차가 있음을 강조한다"고 결론 내렸다.
중요한 점은, 이 최첨단 AI들이 풀지 못한 문제들이 어린아이도 약간의 설명만 들으면 풀 수 있는 논리 퍼즐이라는 것이다. 더욱이, 이 AI들에게 같은 종류의 지시를 내려도 그들은 따르지 못한다.
◇ AI는 '생각'하지 않는다... 규칙 조합과 작화증의 한계
애플의 논문은 기술 업계의 권력 중심부—시그널 채팅, 서브스택 게시물, X 스레드—에서 AI 극단주의자들과 회의론자들 간의 논쟁을 촉발했다.
럭스 캐피털의 조시 울프 공동 창업자는 "사람들은 애플이 최첨단 모델이 없어서 불평하는 '신포도' 심리라고 말할 수도 있다"며, "하지만 나는 이것이 비판이라기보다는 경험에 따른 관찰에 가깝다고 생각한다"고 말했다.
오픈AI 대변인은 "오픈AI 모델의 추론 방식은 이미 도구를 쓰고, 결정을 내리며, 더 어려운 문제를 푸는 에이전트의 기반을 마련하고 있다"며 "우리는 이런 능력을 계속해서 발전시켜 나갈 것"이라고 밝혔다.
이 연구를 둘러싼 논쟁은 AI가 실제로는 ‘생각’하지 않고, 훈련 데이터 안의 다양한 상황에 맞는 단순 규칙을 조합하는 수준이라는 지적에서 시작된다.
2016년 AI 신생기업을 우버에 매각한 인지 과학자 게리 마커스는 한 에세이에서 애플의 논문과 관련 연구들이 오늘날 추론 모델의 결함을 폭로하며, 이것이 인간 수준 능력의 여명이 아니라 막다른 길일 수 있다고 주장했다. 그는 "애플의 연구가 그토록 강한 파급력을 가진 까닭 가운데 하나는 애플이 해냈기 때문"이라며 "사람들이 마침내 이 사실을 스스로 이해하기 시작한 시점에 이 연구가 나왔다고 생각한다"고 말했다.
코딩과 수학 이외의 분야에서 최신 모델들은 과거와 같은 속도로 발전하고 있지 않다. 그리고 최신 추론 모델들은 이전 모델에서는 덜 나타났던 '환각' 현상을 실제로 더 많이 일으킨다.
럿거스 대학교의 호르헤 오르티스 공학 부교수는 "모델의 규모가 커질수록 추론 능력과 지능이 향상된다는 일반적인 생각은 아마도 거짓일 것"이라고 말한다. 그의 연구실은 추론 모델과 다른 최첨단 AI를 써서 현실 세계 환경을 감지한다. 그는 오늘날의 모델들이 명시적인 지시를 따르는 데 서툰 내재된 한계를 지니며, 이는 컴퓨터로부터 기대하는 것과는 정반대라고 덧붙였다.
마치 업계가 자유 연상의 엔진을 만들어내는 것 같다. 이 모델들은 사실이 아닌 것을 사실처럼 꾸며내는 작화증(作話症)에 능하지만, 우리는 그들에게 일관성 있게 규칙을 따르는 엔지니어나 회계사의 몫을 맡기려 하고 있다.
◇ "한계 극복 가능하다"… 비판 속에서도 계속되는 진화
하지만 오늘날 AI에 비판적인 시각을 가진 이들조차 더 유능한 AI를 향한 행진은 계속된다고 서둘러 덧붙인다.
오르티스는 현재의 한계를 드러내는 것이 그것을 극복할 길을 제시할 수 있다고 말한다. 예를 들어, 새로운 훈련 방법, 즉 모델의 성능에 대해 단계별로 피드백을 주고 더 어려운 문제에 부딪혔을 때 더 많은 자원을 더하는 방식은 AI가 더 큰 문제를 풀고 기존 소프트웨어를 더 잘 활용하는 데 도움이 될 수 있다.
울프는 사업 관점에서 현재 시스템이 추론할 수 있는지와 관계없이 사용자에게 가치를 창출할 것이라고 말한다.
AI의 실용적인 활용을 연구해 온 펜실베이니아 대학교 와튼 스쿨의 이선 몰릭 교수는 "모델은 계속해서 나아지고 있으며 새로운 AI 접근법이 언제나 개발되고 있으므로 가까운 앞날에 이런 한계가 실제로 극복되더라도 놀라지 않을 것"이라고 말한다.
한편, 진정한 신봉자들은 흔들림이 없다.
올트먼은 자신의 에세이에서 불과 10년 뒤에는 "어느 해에는 고에너지 물리학 문제를 풀고 다음 해에는 우주 식민지화를 시작하게 될지도 모른다"고 썼다. 그는 직접적인 뇌-컴퓨터 인터페이스를 통해 AI에 "접속"하려는 사람들의 삶은 심오하게 바뀔 것이라고 덧붙인다.
◇ 진짜 위험은 '과대평가'… 맹신이 부를 재앙
이런 수사는 우리 사회 모든 구석에서 AI 채택을 가속화한다. AI는 이제 미 국방부(DOD)가 정부를 재편하는 데 쓰고 있으며, 군대가 더 치명적인 역량을 갖추도록 활용되고, 우리 아이들의 교육을 맡고 있지만 그 결과는 종종 알 수 없다.
AI의 가장 큰 위험은 그 능력을 과대평가하는 데 있다. "기회주의적인 협박" 같은 반사회적 성향을 보였음에도 필요 이상으로 신뢰하며, 현명한 수준 이상으로 의존하는 것이다. 그렇게 함으로써 우리는 가장 중요할 때 실패하는 AI의 성향에 우리 자신을 취약하게 만든다.
오르티스는 "AI를 써서 많은 아이디어를 만들 수는 있지만, 여전히 상당한 감사가 필요하다"며, "예를 들어 세금 신고처럼 중요한 업무를 하려면 챗GPT보다는 터보택스 같은 검증된 소프트웨어를 쓰는 편이 나을 것"이라고 조언했다.
AI가 특정 분야에서 실용적인 가치를 제공하고 계속 발전하고 있지만, 현재 단계에서 인간 수준의 추론과 지능을 갖췄다고 보기에는 근본적인 한계가 뚜렷하다. AI의 능력을 과신하는 태도가 오히려 사회와 산업의 위험을 키울 수 있다는 점을 경계해야 한다.
박정한 글로벌이코노믹 기자 park@g-enews.com