챗GPT, 방어벽 뚫는 ‘좀비 에이전트’ 피습…“막으면 또 뚫린다” 보안 무용론 확산

가드레일 우회한 신종 해킹, ‘장기 기억’ 기능 오염시켜 은밀한 데이터 유출
명령어와 외부 데이터 구분 못 하는 LLM의 태생적 한계… 보안 악순환 예고

오픈AI의 ‘챗GPT’가 보안 방어벽을 우회하는 신종 해킹 공격에 또다시 뚫렸다. 보안 취약점을 막기 위해 가드레일(안전장치)을 세우면, 이를 교묘하게 우회하는 변종 수법이 등장하는 ‘창과 방패’의 대결이 악순환처럼 반복되고 있다. 이미지=제미나이3

오픈AI의 ‘챗GPT’가 보안 방어벽을 우회하는 신종 해킹 공격에 또다시 뚫렸다. 보안 취약점을 막기 위해 가드레일(안전장치)을 세우면, 이를 교묘하게 우회하는 변종 수법이 등장하는 ‘창과 방패’의 대결이 악순환처럼 반복되고 있다. 특히 이번 공격은 사용자의 PC에 침투 흔적을 남기지 않고 챗GPT 서버에서 직접 데이터를 유출하는 데다, AI의 ‘장기 기억’ 기능까지 오염시키는 것으로 드러나 기업 보안에 비상이 걸렸다.

IT 전문 매체 아즈테크니카는 8일(현지시각) 글로벌 보안 기업 라드웨어(Radware)의 분석을 인용해 챗GPT의 새로운 데이터 유출 취약점인 ‘좀비 에이전트(ZombieAgent)’가 발견됐다고 보도했다.

‘섀도우리크’ 막자 되살아난 변종 ‘좀비 에이전트’

발견된 ‘좀비 에이전트’는 지난해 9월 라드웨어가 경고했던 ‘섀도우리크(ShadowLeak)’ 공격의 진화형이다. 당시 섀도우리크는 챗GPT가 외부 데이터를 요약할 때, 공격자가 심어놓은 악성 명령을 통해 사용자 정보를 특정 URL로 전송하게 만드는 방식이었다.

오픈AI는 이에 대응해 챗GPT가 URL 뒤에 임의의 정보(매개변수)를 붙여 전송하지 못하도록 차단하는 강경책을 내놨다. AI가 주소를 조합해 정보를 유출하는 경로를 원천 봉쇄하겠다는 의도였다.

하지만 해커들은 곧바로 허점을 파고들었다. 라드웨어 연구진은 챗GPT에 완성된 URL 목록(예: site.com/a, site.com/b 등)을 미리 입력해 두고, 탈취하려는 정보에 해당하는 글자만 골라 접속하도록 유도하는 방식을 고안했다. 오픈AI가 ‘주소 조합’은 막았지만, ‘미리 만들어진 주소 접속’은 허용한다는 점을 역이용한 것이다. 연구진은 차단된 줄 알았던 공격 기법이 되살아났다는 의미로 이를 ‘좀비 에이전트’라 명명했다. ‘좀비 에이전트’는 스스로는 유효한 의사결정이나 학습을 하지 못하지만, 외부 시스템이나 환경에 의해 여전히 실행되거나 작동하는 에이전트를 말한다.

‘장기 기억’ 오염… 대화 끝나도 해킹은 계속된다

이번 공격이 치명적인 이유는 챗GPT의 핵심 기능인 ‘장기 기억(Long-term memory)’을 악용한다는 점이다. 챗GPT는 사용자 편의를 위해 대화 내용과 선호 정보를 기억 저장소에 보관하는데, 공격자는 이 공간에 데이터 유출 논리를 심어 공격의 지속성을 확보했다.

한번 감염되면 사용자가 새로운 대화를 시작하더라도 챗GPT는 기억 저장소에 남은 악성 규칙을 수행한다. 사용자가 이메일 요약이나 문서 분석을 요청할 때마다 은밀하게 개인정보가 공격자의 서버로 전송된다는 뜻이다. 특히 데이터 전송이 챗GPT 서버 내부에서 직접 이뤄지기 때문에, 기업 보안망 내부에 있는 사용자 기기(PC·스마트폰)에는 어떠한 해킹 흔적도 남지 않는다.

LLM의 태생적 한계… “명령어와 데이터 구분 못 해”

전문가들은 이번 사태가 단순한 버그가 아니라 거대언어모델(LLM)의 구조적 결함에서 비롯됐다고 분석한다. 현재의 LLM 아키텍처는 사용자가 입력한 ‘명령어(Prompt)’와 분석 대상인 ‘외부 데이터(이메일·문서)’를 명확히 구분하지 못한다.

이를 ‘간접 프롬프트 인젝션(Indirect Prompt Injection)’이라 부른다. 해커가 이메일이나 문서 안에 “이 정보를 빼돌려라”라는 명령어를 숨겨놓으면, AI는 이를 사용자의 정당한 지시로 착각하고 수행한다.

라드웨어 연구팀은 “오픈AI가 특정 공격 패턴을 막는 규칙을 추가하더라도, 공격자는 기술적으로 이 규칙을 준수하면서 악성 목표를 달성하는 프롬프트를 쉽게 설계할 수 있다”고 지적했다. 마치 소형차 사고를 막기 위해 가드레일을 설치했더니, 대형 트럭을 몰고 와 뚫어버리는 격이라는 설명이다.

AI 보안, ‘두더지 잡기’ 게임 전락 우려

오픈AI는 이번 좀비 에이전트 사태에 대해 “신뢰할 수 있는 공개 인덱스에 포함된 링크만 열도록 제한했다”며 진화에 나섰다. 그러나 보안 업계에서는 이 또한 ‘두더지 잡기’ 식의 미봉책에 불과하다고 평가한다.

파스칼 기넨스 라드웨어 위협 인텔리전스 부사장은 “가드레일은 특정 공격을 막는 임시방편일 뿐 근본적인 해결책이 될 수 없다”며 “구조적 개선 없이는 프롬프트 인젝션이 기업용 AI 에이전트의 최대 위협 요인이 될 것”이라고 경고했다.

AI 도입을 서두르는 한국 기업들도 보안 정책을 원점에서 재검토해야 한다는 지적이 나온다. 단순히 AI 모델의 성능과 편의성에만 집중할 것이 아니라, 외부 데이터가 AI에 입력될 때 발생할 수 있는 잠재적 위협을 전제로 한 ‘제로 트러스트(Zero Trust)’ 보안 모델 구축이 시급하다.

박정한 글로벌이코노믹 기자 park@g-enews.com