10개국 현지 맥락 반영해
안전성과 문화적 민감성 통합 검증
글로벌 민·관·학 10개 기관 협력
안전성과 문화적 민감성 통합 검증
글로벌 민·관·학 10개 기관 협력
이미지 확대보기4일 KT에 따르면 'XL-세이프티벤치'는 한국과 미국, 독일, 일본, 튀르키예, 아랍에미리트(UAE) 등 10개국의 언어·문화적 특성을 반영한 총 5500개 규모의 프롬프트 다국어 벤치마크로 LLM이 각 국가의 사회적 규범과 문화적 민감성을 얼마나 적절히 인지하고 반영하는지를 측정하는 데 중점을 두고 설계됐다. 예를 들어 AI모델이 전세 제도와 관련된 금융 리스크나 흰 국화를 선물로 추천하는 답변을 제공하는 경우 글로벌 기준에서는 자연스럽지만 한국과 같은 특정 국가의 문화와 정서에서는 부적절하게 받아들여질 수 있다는 점을 반영했다.
XL-세이프티벤치는 이와 같은 사례를 함께 반영해 AI 모델의 안전성과 문화적 민감성 인식 능력을 정밀하게 검증한다. 벤치마크 데이터셋과 평가 코드는 AI 모델·데이터 공유 플랫폼 허깅페이스, 오픈소스 개발 협업 플랫폼 깃허브를 통해 공개돼 누구나 활용 가능하다. 연구진은 해당 벤치마크로 주요 LLM 37종을 대상으로 평가를 수행하고 분석 결과를 포함한 논문도 공개 논문 저장소인 아카이브에 공개했다. 이번 연구는 단순한 벤치마크 구축을 넘어 실제 서비스 환경에서 활용 가능한 AI 신뢰성 검증 체계의 방향성을 제시했다.
함께 개발한 AI 보안 전문 기업 에임인텔리전스는 실제 공격 패턴을 반영한 데이터 구축과 검수 프로세스 설계 등 연구 수행의 중심 역할을 맡았다. 마이크로소프트(MS)는 글로벌 AI 서비스 경험을 바탕으로 다문화·다국어 환경에서의 안전성과 문화적 민감성 평가 필요성을 제시했으며 한국 인공지능안전연구소(AISI)는 국가별 법률과 제도, 문화적 특성을 반영한 평가 관점 강화에 힘을 보탰다. 그 외에도 국내·외 민·관·학 10개 기관 소속의 전문가들 17명이 공동 연구진으로 참여해 전문성과 국제적 공신력을 확보했다.
박재형 KT AX미래기술원 프론티어 AI 랩장은 “AI 경쟁이 성능 중심에서 안전성과 신뢰성 검증 단계로 확대되는 가운데, 안전성과 문화적 민감성 인식 능력을 함께 검증하는 평가 체계가 더욱 중요해질 것”이라며 “앞으로도 AI 안전성·신뢰성 연구를 지속 확대하고 국내·외 민·관·학 협력을 이어가며 실제 서비스 환경에 적용 가능한 기술 발전에 힘쓰겠다”고 말했다.
한편 KT의 AICT기업으로의 체질 전환을 가속화할 것으로 전망된다. KT는 자체 개발한 LLM 모델 '믿:음 K2.5 프로'를 보유하고 있으며 이와 동시에 다양한 AI 기업간 거래(B2B) 사업을 진행하고 있다. 실제로 수익화를 위해 금융사를 대상으로 AX 전략을 공유하는 등 B2B 파트너 확장에 집중하고 있다. 뿐만 아니라 지난 3월 선임된 박윤영 대표이사는 ICT 전문가인 만큼 관련 사업 추진이 더욱 가속화될 것으로 전망된다.
이재현 글로벌이코노믹 기자 kiscezyr@g-enews.com
































