모델 병합·공감형 음성처리 구현
한국어 특화, 국내 최초 통합형 언어모델
AI 생태계 기술 공개 지속 예정
한국어 특화, 국내 최초 통합형 언어모델
AI 생태계 기술 공개 지속 예정

카카오가 국내 최초 멀티모달 언어모델 'Kanana-o'의 성능을 공개하며, 사람처럼 맥락에 맞게 공감하고 응답하는 AI의 시대를 열었다.
카카오는 30일 자사 공식 테크블로그를 통해 텍스트·음성·이미지 통합 멀티모달 언어모델인 'Kanana-o'의 성능을 공개하고 음성 기반 언어모델인 'Kanana-a'의 세부 기능을 소개했다.
Kanana-o는 텍스트과 음성, 이미지 등 다양한 입력 정보를 동시에 이해하고 처리할 수 있어, 단일 입력 뿐 아니라 복합 입력에 대해서도 자연스럽고 상황에 맞는 텍스트와 음성 응답이 가능한 것이 특징이다.

카카오는 이미지 처리 특화 모델인 'Kanana-v'와 오디오 이해 및 생성 특화 모델 'Kanana-a'를 모델 병합(Model Merging) 방식으로 결합해 Kanana-o를 단기간 내 효율적으로 개발했다. 이후 병합 학습(Joint Training)을 통해 이미지·음성·텍스트 간 연결성과 종합적 이해 능력을 동시에 고도화했다.
Kanana-o는 음성 감정 인식(Speech Emotion Recognition) 기능을 통해 사용자의 말투·억양·목소리 떨림 등 비언어적 신호를 분석하고, 상황에 맞는 감정적 반응을 생성할 수 있다. 특히 한국어 화자의 발화 구조, 억양, 방언 등을 정밀하게 반영할 수 있도록 대규모 한국어 데이터를 학습에 활용했다. 제주도·경상도 등 지역 방언을 표준어로 자동 변환해 자연스러운 음성을 생성하는 기능도 탑재됐다.
스트리밍 기반 음성합성 기술을 적용해 긴 대기 시간 없이 실시간 응답이 가능하며, 사용자가 이미지와 함께 “이 그림에 어울리는 동화를 만들어줘”라고 요청하면, 감정·맥락 분석을 거쳐 창의적인 이야기를 음성으로 곧바로 생성해준다.

성능 면에서도 Kanana-o는 한국어와 영어 벤치마크에서 글로벌 최고 수준 모델과 유사한 결과를 보였으며, 특히 감정 인식 능력과 이미지-음성 질의응답 태스크에서 성능을 보였다.
카카오는 향후 Kanana-o를 기반으로 △다중 턴(Multi-turn) 대화 대응 △Full-duplex 양방향 대화 기술 강화 △안전한 응답 생성을 위한 필터링 기술 고도화 등을 진행할 계획이다. 실제 대화에 가까운 자연스러운 상호작용과 몰입도 높은 사용자 경험을 실현하겠다는 목표다.
김병학 카카오 카나나 성과리더는 "카나나 모델은 복합적인 형태의 정보를 통합적으로 처리함으로써 기존의 텍스트 중심 인공지능(AI)을 넘어 사람처럼 보고 듣고 말하며 공감하는 AI로 진화하고 있다"면서 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적인 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.
카카오는 지난해 자체 개발 AI 모델 '카나나(Kanana)'의 라인업을 공개했으며, 공식 테크 블로그를 통해 언어모델, 멀티모달 언어모델, 비주얼 생성모델 등의 성능과 개발기를 공개해왔다. 지난 2월에는 국내 AI 생태계 활성화를 위해 'Kanana Nano 2.1B' 모델을 오픈소스로 깃허브(GitHub)에 배포한 바 있으며, 자체 개발 언어모델 'Kanana'의 연구 성과를 담은 테크니컬 리포트를 아카이브(ArXiv)에 공개하기도 했다.
김지유 글로벌이코노믹 기자 tainmain@g-enews.com