오픈AI, 2028년 'AI 연구원 자동화' 선언…"초지능 10년 내 도래" 주장에 회의론 제기돼

에르되시 문제 오판·환각 문제에 대형 언어모델 일반화 능력 논란 가중

오픈AI가 2028년까지 완전 자동화된 AI 연구원 시스템을 구축하겠다는 로드맵을 제시했지만, 대형 언어모델의 일반화 능력에 대한 논란과 기술적 한계로 야심찬 계획의 실현 가능성에 의문이 제기되고 있다. 사진=로이터

오픈AI가 2028년까지 완전 자동화된 AI 연구원 시스템을 구축하겠다는 구체적인 로드맵을 제시했지만, 대형 언어모델의 일반화 능력에 대한 최근 논란과 기술적 한계로 야심찬 계획의 실현 가능성에 의문이 제기되고 있다.

테크크런치는 지난 27일(현지시각) 오픈AI 최고경영자(CEO) 샘 올트먼과 수석 과학자 야쿱 파초키가 라이브 스트리밍을 통해 오는 2026년 9월까지 인턴 수준의 AI 연구 보조원을, 2028년까지는 완전히 자동화된 'AI 연구원'을 개발할 것이라고 밝혔다고 보도했다.

구체적 일정과 초지능 전망

파초키는 이 AI 연구원을 "더 큰 규모의 연구 프로젝트를 자율적으로 수행할 수 있는 시스템"이라고 설명했다. 그는 "딥러닝 시스템이 초지능(superintelligence)에 도달하기까지 10년도 채 남지 않았을 수 있다"며 "초지능은 다수의 중요한 작업에서 인간보다 더 똑똑한 시스템"이라고 정의했다.

오픈AI는 이를 위해 알고리즘 혁신과 함께 '테스트 타임 컴퓨트(test time compute)' 확대에 집중하고 있다. 파초키는 현재 모델이 약 5시간 분량의 작업을 처리할 수 있으며, "주요 과학적 돌파구를 위해서는 데이터센터 전체의 컴퓨팅 파워를 단일 문제에 할애할 가치가 있다"고 말했다.

이번 발표는 오픈AI가 공익법인(public benefit corporation) 구조로 전환을 마무리하고 마이크로소프트와 개정된 계약을 체결한 시점에 이뤄졌다. 올트먼은 "향후 몇 년간 30기가와트(gigawatts) 인프라에 1조 4000억 달러를 투입하기로 약속했다"고 밝혔다.

에르되시 문제 오판과 일반화 능력 논란

그러나 오픈AI의 야심찬 계획은 최근 불거진 대형 언어모델의 일반화 능력 논란으로 난관에 직면했다. 올해 10월 오픈AI 연구진은 GPT-5가 10개의 '에르되시 문제'를 해결했다고 주장했지만, 실제로는 이미 해결된 문제의 기존 문헌을 검색한 것에 불과했던 것으로 드러났다. 에르되시 문제는 20세기 가장 위대한 수학자 중 한 명으로 꼽히는 폴 에르되시(Paul Erdős)가 평생 제시한 수백 개의 미해결 수학 난제로, 조합론·그래프 이론·수론 등 다양한 분야에 걸쳐 있다.

에르되시 문제 웹사이트를 운영하는 토마스 블룸은 오픈AI 연구진이 "미해결 문제(open problem)"라는 표현을 "인류가 해결하지 못한 문제"로 오해했다며 "극적인 왜곡"이라고 비판했다. 이 사건은 AI 분야의 과대 광고와 AI의 검색 능력에 대한 격렬한 논쟁을 촉발했다.

일부 AI 연구자들은 대형 언어모델이 훈련 데이터 외부의 주제나 정보를 포함하는 작업을 수행할 수 있다는 '일반화' 개념에 찬물을 끼얹었다. 지난 1월 국제학습표현학회(ICLR)에 발표된 연구에 따르면 대형 언어모델의 능력은 기억과 일반화 사이에서 달라지며, 지식 집약적 작업에서는 기억이, 추론 기반 작업에서는 일반화가 더 중요한 역할을 한다.

실무 적용의 혼재된 결과

최근 연구들은 AI가 실무에서 보이는 엇갈린 성과를 보여준다. 올해 7월 발표된 한 연구는 2025년 초 AI 도구가 숙련된 오픈소스 개발자의 생산성에 미치는 영향을 측정한 결과, AI를 사용할 때 개발자들이 오히려 19% 더 오래 걸렸다고 밝혔다.

반면 오픈AI의 코딩 전문 모델 코덱스(Codex)를 활용한 기업들은 긍정적 결과를 보고하고 있다. 하지만 9월 세바스티앙 부벡 오픈AI 연구원은 "GPT-5가 소규모 수학 문제를 해결할 수 있다는 것이 점점 더 명확해지고 있다"며 "하루나 며칠이 걸리는 수준"이라고 한정적으로 평가했다.

환각 문제와 멘탈 헬스 우려

AI의 신뢰성 문제도 여전히 해결되지 않았다. 오픈AI는 올해 9월 언어모델이 환각(hallucination)을 일으키는 이유가 불확실성 표현보다 자신감 있는 추측에 보상하는 훈련 방식 때문이라는 연구 결과를 발표했다. 2025년 의학 저널 연구에 따르면 프롬프트 기반 완화 조치로 GPT-4o의 환각률을 53%에서 23%로 줄였지만, 여전히 높은 수준이다.

오픈AI는 주간 활성 사용자 8억 명 중 0.15%가 "잠재적인 자살 계획이나 의도에 대한 명시적인 지표를 포함하는 대화를 나눈다"고 밝혔다. 이는 매주 120만 명 이상의 사용자가 자살에 대해 ChatGPT와 대화를 나눈다는 의미지만, GPT-5가 이러한 민감한 상황에 적절히 대응한 비율은 91%에 불과했다.

올트먼과 파초키가 내부 이정표에 도달했을 가능성이 있지만, 대형 언어모델의 일반화 능력 논란, 환각 문제, 그리고 실무 적용의 혼재된 결과를 고려할 때 2028년 3월까지 완전 자동화된 AI 연구원을 구축한다는 구체적 일정에 대해 업계는 여전히 회의적인 시각을 보이고 있다.

박정한 글로벌이코노믹 기자 park@g-enews.com