닫기

글로벌이코노믹

"GPT-5.5, 에이전트 코딩 82.7% 기록… 클로드 오퍼스 4.7 압도"

글로벌이코노믹

"GPT-5.5, 에이전트 코딩 82.7% 기록… 클로드 오퍼스 4.7 압도"

'터미널벤치 2.0'서 역대급 성능 입증… 인간 개입 최소화한 에이전트 시대 개막
지시 없어도 스스로 목표 완수… 재무·홍보 등 기업 실무 워크플로 혁신 가속화
성능 높이고 토큰 비용은 낮추고… "속도 저하 없는 차세대 AI 인프라의 탄생"
GPT-5.5는 최종 벤치마크 점수 82.7%로 에이전트 코딩에서 클로드 오퍼스 4.7을 압도했다. 이미지=구글 AI 제미나이 생성이미지 확대보기
GPT-5.5는 최종 벤치마크 점수 82.7%로 에이전트 코딩에서 클로드 오퍼스 4.7을 압도했다. 이미지=구글 AI 제미나이 생성
오픈AI(OpenAI)가 현존하는 인공지능 모델 중 가장 강력하고 직관적인 'GPT-5.5'를 공식 출시했다.

'GPT-5.5'는 사용자가 일일이 단계를 지시하지 않아도 복잡한 목표를 스스로 이해하고 실행하는 '에이전트형' 시스템에 최적화돼 인공지능과의 상호작용 방식을 근본적으로 바꿀 것으로 전망된다.

23일(현지시각) 과학 기술 전문매체 인터레스팅 엔지니어링에 따르면 GPT-5.5는 특히 코딩과 워크플로 자동화 영역에서 비약적인 발전을 이뤘다. 에이전트 코딩 능력을 측정하는 '터미널벤치(TerminalBench) 2.0'에서 82.7%의 정확도를 기록하며 경쟁 모델인 클로드 오퍼스 4.7(Claude Opus 4.7)을 압도했다.

또한 실제 깃허브(GitHub) 문제를 해결하는 'SWE-벤치 프로(SWE-Bench Pro
0'에서도 58.6%의 성능을 보여주며 이전 세대 모델의 한계를 가볍게 넘어섰다.

인간 개발자 20시간 업무도 척척… '지능' 높이고 '비용' 낮췄다


오픈AI 측은 GPT-5.5가 단순한 벤치마크 점수 향상을 넘어 실제 시스템 아키텍처와 오류 발생 지점을 정확히 파악하는 능력을 갖췄다고 밝혔다. 내부 테스트 결과, 인간 개발자가 완료하는 데 최대 20시간이 소요되는 장기 엔지니어링 작업에서도 탁월한 성과를 거둔 것으로 나타났다.

성능은 높아졌고, 효율성은 더욱 개선됐다. GPT-5.5는 이전 버전인 GPT-5.4와 동일한 지연 시간(Latency)을 유지하면서도, 동일한 작업을 수행하는 데 필요한 토큰 수는 오히려 줄어들었다. 이는 기업 입장에서 더 높은 지능을 더 낮은 계산 비용으로 사용할 수 있음을 의미한다.

재무·홍보·엔지니어링 전방위 확산… "이미 일상의 도구"


실제 활용 사례도 눈부시다. 현재 오픈AI 직원의 85% 이상이 매주 이 모델을 업무에 활용하고 있다. 홍보팀은 6개월 분량의 데이터를 처리해 승인 절차를 자동화했으며, 재무팀은 2만 4,000여 건의 세금 신고서를 검토하는 시간을 2주나 단축했다.
오픈AI는 "GPT-5.5가 속도 저하 없이 지능을 한 단계 끌어올린 모델"이라며, "사용자가 하려는 작업을 더 빠르게 이해하고 더 많은 업무를 스스로 처리할 수 있도록 설계됐다"고 강조했다.


이인수 글로벌이코노믹 기자 tjlee@g-enews.com