닫기

글로벌이코노믹

"눈과 귀 동시에 열었더니 오차 줄었다"…국내 연구진, '멀티모달 AI' 안정성 비밀 풀었다

글로벌이코노믹

"눈과 귀 동시에 열었더니 오차 줄었다"…국내 연구진, '멀티모달 AI' 안정성 비밀 풀었다

UNIST 윤성환 교수팀, 여러 정보 섞어 배우는 AI의 '학습 지도' 수학적 규명
데이터 짝꿍 무작위로 섞는 새 학습법 제안…세계적 학회 ICML서 발표 예정
멀티모달 AI는 이미지와 음성, 텍스트를 함께 학습하면서 낯선 입력에도 판단이 덜 흔들릴 수 있다. 그래픽은 오차 지형 완화와 DML 학습 방식, 활용 분야를 함께 정리한 것이다. 그래픽=AI 생성·박근호 기자 정리이미지 확대보기
멀티모달 AI는 이미지와 음성, 텍스트를 함께 학습하면서 낯선 입력에도 판단이 덜 흔들릴 수 있다. 그래픽은 오차 지형 완화와 DML 학습 방식, 활용 분야를 함께 정리한 것이다. 그래픽=AI 생성·박근호 기자 정리


의료 진단용 영상, 자율주행 도로 상황 등 한 치의 오차도 허용되지 않는 현장에 인공지능(AI)을 적용할 때 가장 큰 걸림돌은 '데이터의 흔들림'이다.

병원마다 촬영 장비가 다르고 도로 위 날씨가 시시각각 바뀌면 고득점을 받던 AI도 오답을 내기 일쑤다.

국내 연구진이 시각·청각·문자 등 다양한 감각 정보를 함께 습득하는 AI가 이 같은 돌발 상황에서 왜 더 영리하고 안정적으로 버텨내는지 그 수학적 원리를 밝혀냈다.
울산과학기술원(UNIST) 인공지능대학원 윤성환 교수 연구팀(제1저자 이재준 연구원)은 복합 정보 학습(멀티모달 학습)이 AI 모델 내부의 오차 지형을 평탄하게 만들어 시스템의 맷집(강건성)을 키운다는 사실을 이론적으로 증명했다고 밝혔다.

그동안 복합 정보를 다루는 AI가 단일 정보(텍스트 혹은 이미지 하나만 학습한 AI)만 배우는 모델보다 성능이 좋다는 사실은 수많은 경험적 실험으로 알려져 있었으나, 딥러닝 학습이 일어나는 내부 회로에서 어떤 변화가 생겨 안정성이 높아지는지를 명확히 설명한 연구는 없었다.

연구팀은 그 해답을 AI의 '오차 지도(손실 지형)'에서 찾아냈다. 오차 지도는 AI가 정답을 찾아가는 과정에서 겪는 실수와 내부 설정값의 관계를 산과 골짜기 같은 지형으로 시각화한 개념이다.

지형의 경사가 좁고 칼날처럼 뾰족하면 작은 환경 변화에도 AI의 판단이 낭떠러지로 떨어지듯 쉽게 흔들린다. 반면 골짜기가 넓고 완만하면 낯선 돌발 데이터가 입력되어도 성능이 안정적으로 유지된다.

AI 오차 지형의 변화 비교


  • 단일 정보 학습 (기존 AI) : 뾰족하고 가파른 골짜기 형태 ➔ 주변 환경(조명, 잡음 등)이 조금만 바뀌어도 오답률 급증

  • 복합 정보 학습 (멀티모달 AI) : 완만하고 넓은 평지 형태 ➔ 데이터에 잡음이 섞여도 다른 감각 정보가 균형을 잡아주어 안정적 유지

연구팀은 여러 형태의 정보를 함께 학습할 때, 한 가지 데이터에서 발생하는 급격한 오차 변화가 다른 종류의 데이터와 만나 서로를 누르고 펴주는 수학적 '평균화 완화 효과(합성곱 스무딩)'가 일어난다는 점을 증명했다.

눈으로 보는 사진이 다소 흐릿하더라도, 귀로 듣는 소리와 글로 적힌 문맥이 오차의 급격한 굴곡을 깎아내며 전체 지형을 평평하게 다져주는 셈이다.

윤성환 UNIST 인공지능대학원 교수(왼쪽)와 이재준 연구원. 연구팀은 이미지·음성·텍스트를 함께 학습하는 멀티모달 AI가 한 종류의 데이터만 학습한 AI보다 더 안정적으로 작동하는 원리를 수학적으로 규명했다. 사진=UNIST대외협력팀이미지 확대보기
윤성환 UNIST 인공지능대학원 교수(왼쪽)와 이재준 연구원. 연구팀은 이미지·음성·텍스트를 함께 학습하는 멀티모달 AI가 한 종류의 데이터만 학습한 AI보다 더 안정적으로 작동하는 원리를 수학적으로 규명했다. 사진=UNIST대외협력팀


연구팀은 이 이론을 한 단계 발전시켜 AI의 학습 효율을 극대화하는 '분포 기반 복합 학습법(DML)'도 새롭게 제안했다.

기존에는 '구급차 사진'과 '구급차 설명문'을 고정된 한 쌍으로만 묶어 기계적으로 외우게 했다면, DML 방식은 동일한 정답 범주 안에 있는 여러 사진과 설명문들을 무작위로 섞어가며 다양한 조합을 경험하게 만든다.

특정 정답 쌍을 통째로 암호처럼 외우는 부작용을 막고, 근본적인 개념을 이해하도록 유도하는 방식이다. 실제 데이터셋 검증 결과, 기존 고정 쌍 학습 방식보다 대상을 분류하는 정확도와 이미지-텍스트를 서로 매칭하는 과제에서 성능이 크게 향상되었다.

이번 연구는 실제 산업 현장에서의 파급력이 상당할 것으로 기대된다. 비 오는 밤길을 달리는 자율주행차나, 기기 오차가 있는 의료 환경에서 AI의 치명적인 오작동을 줄이는 핵심 기반 기술이 될 수 있기 때문이다.

과학기술정보통신부와 한국연구재단 등의 지원을 받아 수행된 이번 연구 성과는 세계 최고 권위의 인공지능 학회인 '국제 머신러닝 학회(ICML 2026)'에 채택되어 오는 7월 서울 코엑스에서 공식 발표될 예정이다.


박근호 글로벌이코노믹 기자 hotkay89@gmail.com