첨단 AI 모델, 진화 패턴 예측 어려워... 잘못된 정보 생성 현상 두 배 증가
이미지 확대보기오픈AI는 약 일주일 전 '지금까지 출시한 모델 중 가장 스마트한 모델'이라고 소개하며 o3와 이보다 작은 o4-mini 모델을 출시했다. 이 회사와 초기 테스터들은 o3의 전반적인 추론 능력, 특히 계획된 일련의 단계를 계획·실행·설명하여 사용자 요청에 응답하는 능력을 높이 평가했다.
보도에 따르면, 전문가들은 o3가 지속적인 사용자 감독이나 개입 없이도 웹 검색을 수행하고 다른 디지털 도구를 사용하는 능력이 뛰어나다고 평가했다. 개발자 사이먼 윌리슨은 "이러한 모델은 최종 답변을 생성하기 전에 생각의 연쇄 추론 과정의 일부로 검색을 실행할 수 있다. 이것은 엄청난 성과로 밝혀졌다"고 설명했다.
에브리(Every)의 댄 시퍼는 o3를 "GPT-4 이후 새로운 오픈AI 모델을 사용하면서 경험한 가장 큰 '놀라운' 순간"이라고 표현했다. 경제학자이자 블로거인 타일러 코웬은 더 나아가 "o3가 인공일반지능(AGI)의 출현을 예고했다."라고 주장했다.
◇ 시각 인식 능력은 놀랍지만, 정확도는 여전히 문제
o3의 가장 주목할 만한 기능 중 하나는 뛰어난 시각 인식 능력이다. 원문에 따르면, 입소문을 탄 인기 있는 기능으로 "o3를 사용하여 거의 모든 디지털 사진을 보고 사진이 촬영된 위치를 식별하는 것"이 소개됐다. 이는 개인정보 보호 전문가들에게는 우려를 낳을 수 있는 성능이다.
그러나 많은 리뷰어들은 o3의 수학적 오류와 부정확한 답변 등 여러 문제점을 지적했다. 이 연구에 따르면, o3는 테스트한 AI 모델들 중 재무 분석 능력이 가장 뛰어났지만, 사용자 질문에 정확하게 답변하는 비율은 48.3%에 그쳤다. 또한, 한 번 질의할 때마다 평균 3.69달러(약 5,000원)의 비용이 발생해 비교 대상 모델 중 가장 비싼 것으로 나타났다. 워싱턴포스트는 이 연구 결과에 대해 상세히 보도했다.
특히 주목할 점은 오픈AI 스스로 o3가 '잘못된 정보 생성' 측면에서 이전 모델보다 퇴보했다고 인정했다는 것이다. 널리 사용되는 정확도 벤치마크 테스트에서 o3는 이전 제품인 o1보다 두 배 이상 잘못된 정보를 생성하는 것으로 나타났다. 오픈AI는 o3의 오류율이 급증한 이유를 이해하기 위해 "더 많은 연구가 필요하다"고 밝혔다.
◇ "불규칙한 발전" 현상 두드러져
AI 분석가 에단 몰릭은 o3의 인상적이지만 산발적인 성능을 "들쭉날쭉한 개척지"라고 표현했다. 그는 "일부 작업에서 AI는 신뢰할 수 없지만, 다른 영역에서는 인간을 뛰어넘는 능력을 보인다"며 "최신 모델은 우리가 AGI라고 부르든 말든 이전에 나온 것과는 질적으로 다른 것을 나타낸다. 이들의 자율적 특성과 불규칙한 능력이 결합되어 이전과 비교할 수 없는 진정으로 새로운 상황을 만들어냈다"고 분석했다.
AI 모델을 설계·구축·훈련하는 과정은 과학적 엄격함을 부과하거나 결과를 복제하려는 개발자의 노력에 완고하게 저항하고 있다. 관련 업계에서는 "이 과정은 다리를 놓는 것보다 아이를 키우는 것과 더 비슷하다"는 분석이 나오고 있다. 이러한 특성은 AI 개발을 둘러싼 신비감과 가능성을 더하지만, 동시에 AI를 통제하거나 경제적 이익을 위해 활용하려는 노력을 어렵게 만드는 요인으로 작용하고 있다고 이 매체는 전했다.
박정한 글로벌이코노믹 기자 park@g-enews.com
































