닫기

글로벌이코노믹

글로벌 공략 나서는 네카오…'한국어 기반' AI챗봇 개발 이유는?

글로벌이코노믹

글로벌 공략 나서는 네카오…'한국어 기반' AI챗봇 개발 이유는?

영어보다 난해한 한국어 통한 기술 고도화…다국적 서비스 발판 마련
최수연 네이버 대표(왼쪽), 홍은택 카카오 대표. 사진=각 사이미지 확대보기
최수연 네이버 대표(왼쪽), 홍은택 카카오 대표. 사진=각 사
오픈AI 기반 생성형 AI 서비스인 챗GPT의 기세가 매서운 가운데 네이버와 카카오가 각각 '서치GPT'와 'KoGPT'라는 서비스를 대항마로 꺼내 들었다. 특히 이들 서비스는 글로벌 서비스에 대항할 무기로 '한국어 특화'를 언급해 눈길을 끌고 있다.

네이버와 카카오는 지난해부터 글로벌 진출을 모토로 내세우고 해외 영토 확장에 속도를 내고 있다. 이 때문에 AI 서비스도 글로벌 최적화를 내세울 것으로 예상됐지만 한국어를 기반으로 기술 고도화에 집중하고 있다.

네이버는 지난 3일 콘퍼런스콜에서 올 상반기 중 '서치GPT'를 출시하겠다고 밝혔다. 최수연 네이버 대표는 "생성 AI 같은 새로운 검색 트렌드 대응책을 준비하고 있다. 네이버는 한국어로는 가장 고품질의 검색 데이터를 보유한 사업자이자 거대 AI 모델로는 세계 정상급 기술을 자랑하는 대한민국 최고의 검색 AI 기술 회사"라고 밝혔다.

이에 따라 업계에서는 오는 27일과 28일 서울 삼성동 코엑스에서 열리는 네이버 연례 개발자 콘퍼런스 '데뷰 2023(DEVIEW 2023)'에서 그 윤곽이 드러날 것으로 보고 있다. 올해 '데뷰 2023'에서 둘째 날인 28일에 네이버클라우드가 하이퍼클로바와 챗봇에 대한 세션을 마련했다.
하이퍼클로바는 '서치GPT'의 바탕이 되는 초거대 AI로 한국어 학습에 최적화됐다는 의견이 나오고 있다. 이를 기반으로 '서치GPT'는 한국어에 최적화된 GPT가 될 전망이다. 최수연 대표는 "생성형 AI의 단점으로 꼽히는 신뢰성과 최신성 부족, 해외 업체들의 영어 기반 개발 모델을 한국어로 번역하면서 발생하는 정확성 저하를 비교적 비용 효율적으로 해결할 수 있다고 자신한다"고 밝혔다.

카카오브레인의 초거대 AI 언어학습 모델인 'KoGPT' 역시 한국어에 최적화돼 있다. 'KoGPT'는 60억 개의 파라미터와 2000억 개 토큰의 한국어 데이터를 바탕으로 구축됐으며 한국어를 사전적·문맥적으로 이해한다.

'KoGPT'는 이용자가 입력한 한국어의 의도에 적합한 문장을 생성하는 기능을 제공하는 도구다. 맥락과 의도에 따라 문장을 생성해 상품 소개 글 작성, 감정 분석, 기계 독해, 기계 번역 등 높은 수준의 언어 과제를 해결하고 다양한 분야에서 활용할 수 있다.

이 같은 'KoGPT'를 기반으로 한 시 쓰는 AI '시아(SIA)'는 지난해 시집 '시를 쓰는 이유'를 출간하기도 했다. AI가 쓴 시집이라는 점에서 해당 시집은 과학계뿐 아니라 문학계에서도 큰 주목을 받았다.

카카오는 'KoGPT'를 활용한 특화 서비스를 올해 안에 선보인다는 계획이다. 홍은택 카카오 대표는 지난 10일 콘퍼런스콜에서 "카카오브레인이 가지고 있는 한국어 특화 언어모델인 KoGPT를 활용해 연내 버티컬(특화) 서비스를 빠르게 선보이며 비용 경쟁력 있게 카카오의 AI 역량을 높이겠다"고 밝혔다.
네이버와 카카오가 선보이는 '서치GPT'와 'KoGPT'의 가장 큰 특징은 한국어에 특화됐다는 점이다. 업계에서는 낱말 조합 방식인 한국어가 문자 나열 방식의 영어나 이를 기반으로 한 언어보다 복잡하기 때문에 더 고도화된 기술을 요구한다.

실제로 챗GPT의 기반이 되는 오픈AI의 파라미터(매개변수)는 1750억 개로 하이퍼클로바의 2040억 개보다 적다. 'KoGPT'는 파라미터는 60억 개 수준이지만 2000억 개의 한국어 토큰을 가지고 있어 한국어 학습에 특화돼 있다.

또 챗GPT는 영어권 국가에 적합한 바이트 페어 인코딩(BPE) 방식을 사용하고 있지만, 한국어는 BPE 방식에 적합하지 않다. 네이버는 이를 위해 새로운 토큰 나눔 방식을 개발한 것으로 알려졌다.

'서치GPT'의 경우 네이버의 오로라 프로젝트와 결합해 고도화된 검색 서비스를 선보이면서 한국 이용자들에게 먼저 정착하는 것을 목표로 삼고 있다. 'KoGPT' 역시 한국어 기반으로 기술을 고도화해 국내 이용자들에게 특화된 서비스를 선보이고 이를 기반으로 글로벌 무대에 진출한다는 계획이다.

업계에서는 언어를 바꾸는 것은 다른 나라 언어의 데이터셋을 추가하면 되기 때문에 여러 국가의 다양한 언어를 사용할 수 있도록 AI 기술을 고도화하는 게 중요하다고 보고 있다. 실제로 중국 바이두가 선보인 AI챗봇은 2600억 개의 파라미터를 보유해 챗GPT보다 크게 앞서고 있다.

한편 네이버와 카카오 외에 SK텔레콤과 KT, LG유플러스도 초거대 AI 경쟁에 속도를 내고 있다. SK텔레콤은 대화형 AI 서비스인 '에이닷(A.)'을 고도화할 계획이고 KT는 초거대 AI '믿음'을 기반으로 한 기업용 AICC, LG유플러스는 LG그룹의 초거대 AI '엑사원'을 기반으로 한 다양한 서비스를 선보일 예정이다.

통신사들은 이용자들이 통신서비스를 이용한 데이터를 기반으로 기술 고도화에 나설 것으로 보인다. 실제로 SK텔레콤은 T맵 내비게이션과 IPTV 추천, 게임 등 다양한 서비스에 '에이닷'을 활용하고 있다. LG유플러스도 AI 브랜드 '익시'를 선보이며 스포츠 승부 예측, IPTV 추천 등 고객 맞춤형 서비스를 선보였다.


여용준 글로벌이코노믹 기자 dd0930@g-enews.com