"GPT-5.5, 에이전트 코딩 82.7% 기록… 클로드 오퍼스 4.7 압도"

'터미널벤치 2.0'서 역대급 성능 입증… 인간 개입 최소화한 에이전트 시대 개막
지시 없어도 스스로 목표 완수… 재무·홍보 등 기업 실무 워크플로 혁신 가속화
성능 높이고 토큰 비용은 낮추고… "속도 저하 없는 차세대 AI 인프라의 탄생"

GPT-5.5는 최종 벤치마크 점수 82.7%로 에이전트 코딩에서 클로드 오퍼스 4.7을 압도했다. 이미지=구글 AI 제미나이 생성

오픈AI(OpenAI)가 현존하는 인공지능 모델 중 가장 강력하고 직관적인 'GPT-5.5'를 공식 출시했다.

'GPT-5.5'는 사용자가 일일이 단계를 지시하지 않아도 복잡한 목표를 스스로 이해하고 실행하는 '에이전트형' 시스템에 최적화돼 인공지능과의 상호작용 방식을 근본적으로 바꿀 것으로 전망된다.

23일(현지시각) 과학 기술 전문매체 인터레스팅 엔지니어링에 따르면 GPT-5.5는 특히 코딩과 워크플로 자동화 영역에서 비약적인 발전을 이뤘다. 에이전트 코딩 능력을 측정하는 '터미널벤치(TerminalBench) 2.0'에서 82.7%의 정확도를 기록하며 경쟁 모델인 클로드 오퍼스 4.7(Claude Opus 4.7)을 압도했다.

또한 실제 깃허브(GitHub) 문제를 해결하는 'SWE-벤치 프로(SWE-Bench Pro

0'에서도 58.6%의 성능을 보여주며 이전 세대 모델의 한계를 가볍게 넘어섰다.

인간 개발자 20시간 업무도 척척… '지능' 높이고 '비용' 낮췄다

오픈AI 측은 GPT-5.5가 단순한 벤치마크 점수 향상을 넘어 실제 시스템 아키텍처와 오류 발생 지점을 정확히 파악하는 능력을 갖췄다고 밝혔다. 내부 테스트 결과, 인간 개발자가 완료하는 데 최대 20시간이 소요되는 장기 엔지니어링 작업에서도 탁월한 성과를 거둔 것으로 나타났다.

성능은 높아졌고, 효율성은 더욱 개선됐다. GPT-5.5는 이전 버전인 GPT-5.4와 동일한 지연 시간(Latency)을 유지하면서도, 동일한 작업을 수행하는 데 필요한 토큰 수는 오히려 줄어들었다. 이는 기업 입장에서 더 높은 지능을 더 낮은 계산 비용으로 사용할 수 있음을 의미한다.