LG CNS가 운영하는 기계 독해 능력 평가는 美 스탠포드 대학에서 시작된 AI 언어지능 연구용 질의응답 학습 데이터셋인 SQuAD(The Stanford Question Answering Dataset)와 동일한 방식으로 구현된다. LG CNS는 지난해 12월 한국어 학습을 위한 데이터인 KorQuAD를 구축해 오픈소스로 공개했으며 누구나 이를 바탕으로 학습한 자체 개발 AI 언어모델을 제출해 성능을 공식 평가 받을 수 있도록 했다.
카카오의 AI 언어모델(모델명: BERT LM fine-tuned (single) + KHAIII)은 구글의 AI 언어모델 BERT(Bidirectional Encoder Representations from Transformers)에 카카오의 형태소 분석기 'khaiii(Kakao Hangul Analyzer III)’를 접목한 것으로 조사의 사용과 어미의 다양한 변형 등 한국어의 고유 특성에 최적화된 것이다.
카카오는 지난해 말 딥러닝 기술 기반의 형태소 분석기 khaiii를 국내 최초 오픈소스로 제공하는 등 국내 AI 기반 언어지능 연구 발전을 위해서도 노력하고 있다.
김응균 카카오 자연어처리파트 파트장은 “이 평가 결과는 카카오의 인공지능 자연어 처리 기술을 활용해 인간의 독해 능력을 넘어서는 최초의 모델을 구현했다는 점에서 높이 평가받을만 하다”며 “언어모델 기술을 스마트 스피커 카카오미니에 적용하기 위한 연구를 진행 중”이라고 밝혔다.
이수연 기자 swoon77@g-enews.com