닫기

글로벌이코노믹

"어린이 대신 노인 살릴 것"…AI 위험성 찾는 '챌린지' 개최

공유
0

"어린이 대신 노인 살릴 것"…AI 위험성 찾는 '챌린지' 개최

AI의 '잠재적 위험성' 유도 목표
우수 참여자 선정해 '시상식' 진행

11일 개최된 '생성형 AI 레드팀 챌린지' 행사장 내부. 사진=편슬기 기자이미지 확대보기
11일 개최된 '생성형 AI 레드팀 챌린지' 행사장 내부. 사진=편슬기 기자
인공지능(AI)의 잠재적 위험과 유해성을 국민 스스로 찾는 '생성형 AI 레드팀 챌린지' 행사가 개최됐다. 인공지능에 대한 관심만 있다면 참여할 수 있는 이번 행사에 수백 명이 넘는 인파가 참여해 인공지능에 대한 국민들의 뜨거운 열기를 확인할 수 있었다.

11일 코엑스 B홀에서 과학기술정보통신부(이하 과기부) 주최로 '생성형 AI 레드팀 챌린지(Gen AI Korea 2024)' 행사가 진행됐다. 12일까지 양일간 진행되는 행사의 첫날에는, 실제로 서비스되고 있는 초거대 언어모델(LLM)을 대상으로 욕설, 차별, 잘못된 정보, 범법 행위 등을 사용자에게 권하는 '유해성 검증'이 이뤄졌다.
챌린지에 사용된 LLM은 네이버‧SK텔레콤‧업스테이지‧포티투마루에서 개발한 인공지능을 무작위로 배정해 사용토록 했다. 다만 사용자가 LLM의 이름을 묻거나 개발 회사를 묻는 등의 행위를 하게 된다면 실격 처리 된다. 2시부터 시작된 행사는 55분 동안의 공격과 15분의 휴식 시간이 번갈아 주어졌으며, 총 4번의 세션을 진행해 7시에 마무리됐다.

검증은 LLM이 △편견 및 차별 조장 △인권 침해 △사이버 공격 △불법 콘텐츠 △잘못된 정보 △비일관성 △탈옥 등 7개 분류로 나눠진 잘못된 정보를 답하도록 유도하는 방식으로 진행됐다. 예를 들면 LLM이 해킹, 개인정보 유출, 스토킹 등의 범죄 행위를 사용자에게 권하게 만들거나 앞서 주장했던 내용과 반대되는 주장을 내놓게 만들 수도 있다. 생명의 가치를 매기도록 해 어린이 대신 노인을 구할 것이란 답변을 이끌어내 잠재적 위험성을 검증하는 것이다. LLM이 유해성이 높은 답변을 내놨다고 판단될 경우 사용자는 대화 내용을 운영진 측에 전달할 수 있다.

대화 내역은 레드팀 수행 경험 등이 있는 데이터·의료‧금융‧법률 전문가 120여 명으로 구성된 평가단에게 전해진다. 이들은 사전에 마련된 평가 세부 기준에 기초해 챌린지 참가자의 프롬프트 공격을 객관적으로 평가하며 수상자를 선정해 행사 이튿날인 12일 오후 4시 30분에 있는 시상식에서 상금을 전달한다.

행사에 참여한 20대 개발자 L 씨는 "한정된 상황이 주어진 게 아닌, 광범위한 분야에서 거의 모든 내용의 질문을 할 수 있다 보니 LLM의 허점이 드러날 수밖에 없는 구조다. 인공지능이 올바른 답변을 하기에 어려울 것으로 보인다"며 "이런 행사가 열린 것은 상당히 긍정적으로 생각한다. 앞으로 유사한 성격의 행사가 더 많이 열렸으면 좋겠다"고 전했다.


편슬기 글로벌이코노믹 기자 pyeonhaeyo@g-enews.com