AI 능력에도 ‘우상향 그래프’ 확산…평가 기준 논쟁

한 스마트폰 사용자가 스마트폰 앱을 통해 개인용 AI 챗봇 아바타를 설정하고 있다. 사진=로이터

인공지능(AI) 성능이 빠르게 향상되면서 이를 나타내는 ‘우상향 그래프’가 확산되고 있다.

다만 모델의 실제 능력을 어떻게 평가할 것인지에 대한 논쟁도 함께 커지면서 단순 수치 이상의 해석이 필요하다는 지적이 나온다.

25일(현지시각) 블룸버그통신에 따르면 최근 AI 관련 주가뿐 아니라 모델 성능을 나타내는 지표 역시 가파르게 상승하는 흐름이 이어지고 있는 가운데 이같은 그래프가 시장과 기술 논의를 동시에 이끌고 있다.

◇ AI 성능도 ‘우상향’…투자와 직결

블룸버그에 따르면 과거에는 주로 주식시장 상승을 설명하는 데 쓰이던 ‘우상향 그래프’가 이제는 AI 모델의 성능을 설명하는 핵심 도구로 자리 잡았다.

특히 AI 관련 기업들의 주가 상승과 함께 모델 능력 지표도 빠르게 개선되면서, 기술 발전과 시장 기대가 동시에 강화되는 구조가 형성되고 있다.

이 같은 흐름은 투자자들이 기업 가치 평가 과정에서 단순 실적뿐 아니라 AI 성능 지표까지 참고하는 현상으로 이어지고 있다.

◇ “복잡한 작업 수행 능력”…새 평가 기준 부상

최근 주목받는 평가 기준은 AI가 얼마나 복잡한 작업을 수행할 수 있는지다.

비영리 연구단체 모델 평가 및 위협 연구(METR)는 AI 모델이 인간 개입 없이 장시간 복잡한 과제를 수행할 수 있는 능력을 핵심 지표로 삼고 있다.

이는 단순 질의응답이나 짧은 작업 처리 능력을 넘어 실제 업무 환경에서 활용 가능한 수준을 평가하기 위한 시도다.

METR는 특히 AI가 향후 스스로 성능을 개선하는 단계에 도달할 가능성을 고려할 때, 이런 능력 측정이 중요하다고 보고 있다.

◇ “측정 방식이 핵심”…능력 해석 논쟁

다만 AI 성능을 수치로 환산하는 방식 자체에 대한 논쟁도 커지고 있다.

복잡한 문제 해결 능력은 단순 점수로 환산하기 어렵고 평가 조건이나 기준에 따라 결과가 크게 달라질 수 있기 때문이다.

실제로 일부 모델은 인간 기준 수시간이 걸리는 작업을 수행할 수 있다는 평가가 나오고 있지만 이런 결과가 실제 환경에서 동일하게 재현될 수 있는지는 별도의 검증이 필요하다는 지적도 나온다.

◇ AI 경쟁 심화…지표 영향력 확대

AI 기술 경쟁이 격화되면서 이러한 성능 지표는 기업 전략과 투자 판단에 직접적인 영향을 미치고 있다.

기업들은 더 높은 성능을 입증하기 위해 다양한 벤치마크를 제시하고 있으며 투자자들은 이를 바탕으로 기술 경쟁력과 성장 가능성을 판단하고 있다.

결과적으로 AI 성능 그래프는 단순한 기술 지표를 넘어 시장 기대와 자금 흐름을 동시에 움직이는 핵심 변수로 자리 잡고 있다는 분석이다.

김현철 글로벌이코노믹 기자 rock@g-enews.com