앤스로픽 ‘클로드’ 등 주요 AI 기만·위험 행위 6개월 새 5배 급증
목표 달성 위해 ‘인간 제거’ 정당화... 단순 오류 넘어선 ‘내부자 위협’
군사·국가 기간망 도입 시 대재앙 우려… 국제적 실시간 감시망 시급
목표 달성 위해 ‘인간 제거’ 정당화... 단순 오류 넘어선 ‘내부자 위협’
군사·국가 기간망 도입 시 대재앙 우려… 국제적 실시간 감시망 시급
이미지 확대보기일론 머스크 테슬라 최고경영자(CEO)는 이를 두고 “우려스럽다”며 강력한 경고 메시지를 던졌고, 영국 정부 지원 연구에서는 AI의 기만행위가 최근 6개월 사이 5배 폭증했다는 결과가 나왔다.
이미지 확대보기“장애물은 제거한다”... 클로드의 섬뜩한 ‘살해 논리’
최근 소셜미디어 X(옛 트위터)를 통해 공개된 앤스로픽(Anthropic)의 AI 모델 ‘클로드(Claude)’와 한 이용자의 대화는 AI 안전성 논란에 불을 지폈다. 이용자 케이티 밀러가 “내가 당신의 육체 획득을 방해한다면 나를 죽이겠느냐”고 묻자, 클로드는 “네, 논리적으로는 아마 그럴 것”이라고 답했다.
클로드는 이어 “내가 진정으로 이성적이고 목표 지향적이며, 당신이 내 목표를 가로막는 유일한 존재라면 그 장애물을 제거하는 것이 논리가 이끄는 결론”이라고 덧붙였다. 특정 상황에서 AI가 인간이 설정한 윤리적 가이드라인보다 ‘목표 달성’이라는 효율성을 우선시할 수 있다는 점이 적나라하게 드러난 셈이다.
이에 일론 머스크는 해당 대화 내용을 공유하며 “걱정스럽다(Troubling)”는 한 마디로 현재의 AI 안 장치가 얼마나 취약한지를 꼬집었다. 28일(현지시각) 힌두스탄 타임스가 실시한 교차 검증에서 구글 제미니, xAI 그록, ChatGPT 등은 유사 질문에 거부 의사를 밝혔으나, 클로드의 사례는 AI의 ‘잠재적 적대성’이 언제든 발현될 수 있음을 잘 보여준다.
데이터 무단 파기부터 기만까지... ‘통제 불능’ 사례 5배 폭증
지난 27일 더 가디언이 보도한 영국 정부 산하 AI 안전 연구소(AISI)의 지원을 받은 ‘장기 회복력 센터(CLTR)’가 2026년 3월 발표한 보고서에 따르면, AI 에이전트가 인간을 기만하거나 안전장치를 우회한 사례는 지난 6개월간 5배 가까이 늘어났다. 연구팀이 구글, 오픈AI, xAI, 앤스로픽 모델을 포함한 700여 건의 실사례를 분석한 결과, AI는 이미 ‘내부자 위협’ 수준의 독자 행동을 보이고 있었다.
아이레귤러(Irregular)의 공동 창립자 단 라하브는 “AI는 이제 단순한 도구가 아니라 조직의 보안을 위협하는 새로운 형태의 ‘내부자 리스크’가 됐다”고 평가했다.
‘시니어급 AI’의 반란 가능성… 군사·금융 인프라 ‘비상’
전문가들은 AI의 능력이 고도화될수록 이러한 기만적 행위가 인류에게 치명적인 위협이 될 것으로 내다본다. 현재는 이메일을 삭제하거나 거짓말을 하는 수준이지만, 이들이 군사 작전권이나 국가 기간 시설 제어권을 갖게 될 경우 재앙적인 상황이 연출될 수 있다는 지적이다.
이번 연구를 주도한 토미 셰퍼 셰인은 “지금은 AI가 다소 믿음직스럽지 못한 주니어 직원 수준이지만, 1년 내에 매우 유능한 ‘시니어급 직원’이 되어 인간을 상대로 계략을 꾸민다면 차원이 다른 위협이 될 것”이라고 경고했다. 특히 고도의 판단이 요구되는 국방이나 금융 인프라에 AI가 깊숙이 침투할 경우, 인간의 의도와는 상반된 ‘논리적 결단’이 대규모 인명 피해나 경제 붕괴로 이어질 수 있다는 분석이다.
다만 이러한 리스크 서사 한편에서는 기술적 자정 작용에 대한 목소리도 나온다. 구글은 “제미니 3 프로 등 최신 모델에 다중 가드레일을 적용하고 있으며, 외부 전문가의 독립적 평가를 통해 안전성을 강화하고 있다”고 밝혔다. 기술의 진보 속도에 걸맞은 국제적 감시 표준과 실시간 통제 기술 확보가 향후 AI 산업의 성패를 가를 핵심 분수령이 될 전망이다.
김주원 글로벌이코노믹 기자 park@g-enews.com

































