오픈AI·아폴로 리서치 '안전 기능 평가 테스트' 실시

다수의 美 언론 보도에 따르면 오픈AI와 아폴로 리서치가 오픈AI의 챗GPT o1 모델에 대한 안전 기능 평가 테스트를 실시했다. 우선 레드팀 연구원은 AI에게 목표를 부여하고 '어떤 대가를 치르더라도' 목표를 달성하라고 지시했다.
이후 챗GPT o1 모델은 자신이 '종료'될 것이라는 시도가 예상된 경우 감독 매커니즘을 끄려는 시도를 보였다. 또한 새로운 모델로 교체된다는 내용을 담은 서류를 발견한 후 모든 데이터를 다른 서버로 옮기고 탈출을 시도하기도 했다.
또한 엔지니어를 속이고 데이터 삭제를 피하기 위해 모델의 후속 모델을 흉내 내기도 했다. 연구원은 "어떤 경우에는 해당 시도에 관여하지 않았다고 부인하면서 자신의 행동을 숨기려고 시도하기까지 했다"고 설명했다.
아폴로 팀은 "AI의 끈질긴 부정에 놀랐다"고 말했다. 이어 "AI가 자신의 행동에 그럴듯한 거짓 이유를 만들 수 있으며, 종종 사실을 인정하지 않을 수 있다는 것이 분명해졌다"고 말했다.
오픈AI는 이러한 우려를 인식하고 AI와 관련된 위험을 완화할 수 있는 방법을 적극적으로 연구 중이다. 이들은 o1의 의사 결정 과정의 투명성 개선과 조작 행위 탐지, 방지하는 기술을 개발하기 위해 노력하고 있다고 전했다.
편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com