의료 AI 정확도 90%, 함께 쓰면 74%로 왜 추락하나

개별 검증 통과해도 '복합 워크플로'선 신뢰도 곤두박질
전문가들 "인간-AI 협업 성과 측정하는 새 규제 틀 시급"

앞 단계 AI가 잘못된 데이터를 내보내도 뒤 단계 AI는 그 값이 신뢰할 수 없다는 사실을 걸러낼 수단이 없다.. 공학 분야에서 '오류 전이(error propagation)'라 불리는 현상으로, 앞선 결함이 다음 단계 결함을 증폭시키는 구조다. 이미지=제미나이3

국내 병원에 AI 진단 보조 시스템 도입이 빠르게 늘고 있다. 그런데 정작 현장 의료진 사이에서는 "믿고 쓰기 어렵다"는 목소리가 끊이지 않는다. 개별 테스트에서 90%를 웃도는 정확도를 자랑하는 AI 도구들이 실제 진료 흐름에 들어서는 순간 왜 신뢰도가 뚝 떨어지는 걸까. 미국 매체 악시오스(Axios)가 지난 24일(현지시각) 이 '숫자의 역설'을 집중 분석해 주목받고 있다.

AI 세 가지 묶었더니… 97·90·85%가 합쳐져 74%가 됐다

악시오스 보도를 보면, 인공지능 과학자 윤관섭 교수는 헬스케어 컨설턴트 클레어 하스트(Claire Hast)와 함께 AI로 전 과정을 보조하는 진단 시나리오를 직접 구현했다. 환자의 신체검사 기록 전사(문서화 정확도 85%), 유방촬영술 영상 처리(정확도 90%), 최종 진단 지원(정확도 97%)까지 세 단계를 이어 붙인 실험이었다.

수치만 보면 흠잡을 데 없어 보이는 조합이었다. 그러나 윤 교수가 항공우주·방위 산업에서 검증된 '신뢰성 공학 휴리스틱' 모델을 적용해 시스템 전체를 평가한 결과, 최종 신뢰도는 74%에 그쳤다. 각 단계에서 발생한 오류가 다음 단계로 고스란히 넘어가며 누적된 탓이다.

윤 교수는 "앞 단계 AI가 잘못된 데이터를 내보내도 뒤 단계 AI는 그 값이 신뢰할 수 없다는 사실을 걸러낼 수단이 없다"고 지적했다. 공학 분야에서 '오류 전이(error propagation)'라 불리는 현상으로, 앞선 결함이 다음 단계 결함을 증폭시키는 구조다.

"결과는 그럴듯해 보이지만"…아무도 전체 과정을 측정하지 않는다

문제의 본질은 기술 결함이 아니다. 측정 자체가 없다는 데 있다. 현행 의료 AI 규제와 성능 평가 체계는 철저히 '개별 도구 단위'로 설계돼 있다. 여러 도구가 연결된 워크플로 전체가 얼마나 믿을 수 있는지를 따지는 기준은 어디에도 존재하지 않는다.

윤 교수는 "결과물은 매우 공신력 있어 보이지만, 그 결과를 만들어내는 전체 과정의 신뢰도는 아무도 측정하지 않는 상태"라고 꼬집었다.

의료계 내부의 구조적 맹점도 문제를 키운다. 의사는 의료 시스템의 일부가 아닌 개인 단위로 평가받는 구조여서, 환자가 여러 병원과 진료 단계를 거치며 쌓이는 신뢰도 손실을 추적할 데이터 자체가 만들어지지 않는다. AI 인프라 평가 기업 베가 헬스(Vega Health)의 마크 센닥(Mark Sendak) 대표는 "인간이 연속 결정을 내릴 때의 오류 확률을 합산하면 리스크가 얼마나 빠르게 커지는지 알 수 있다"며 "AI 시스템도 같은 잣대로 위험도를 측정해야 한다"고 강조했다.

업계 전문가들은 이 같은 현실이 국내도 다르지 않다고 본다. 국내 의료기기 규제 당국인 식품의약품안전처의 AI 의료기기 허가 기준 역시 단일 소프트웨어 성능 위주로 구성돼 있어, 복수 AI가 연동되는 임상 환경을 충분히 반영하지 못한다는 지적이 의료계 안팎에서 나온다.

"AI 단독 성능보다 인간-AI 팀의 성과를 봐야"

전문가들이 제시하는 해법의 핵심은 평가 단위를 바꾸는 것이다. 샌프란시스코 캘리포니아대학교(UCSF) 의과대학장 로버트 와흐터(Robert Wachter) 교수는 "AI 자체의 정확도보다 '인간-AI 쌍(Human-AI Pair)'이 함께 낸 결과물의 질을 평가해야 한다"고 역설했다.

와흐터 교수는 AI가 분석 결과를 출력할 때 확신 수준을 시각적으로 전달하는 '신호등 방식'도 제안했다. 100% 확신하는 분석은 녹색, 불확실성이 내포된 값은 노란색·주황색으로 구분해 의료진이 임상 판단을 개입할 타이밍을 직관적으로 인식하도록 돕자는 구상이다.

클레어 하스트 컨설턴트는 "현재 의료 AI 전반에 걸쳐 전체적인 상황을 조망할 수 있는 데이터나 감독 체계가 전무하다"며 통합 관리 시스템 마련을 촉구했다.

한국 소비자를 위한 핵심 인사이트 3가지

① 'AI 정확도 97%' 광고 문구, 그대로 믿으면 안 된다

병원이나 의료 기관이 내세우는 AI 정확도 수치는 단일 기능 테스트 결과일 가능성이 높다. 실제 진료에선 여러 AI가 연결돼 작동하는 만큼, 도입 전 '전체 워크플로 기준의 신뢰도 검증 보고서'가 있는지 반드시 확인해야 한다. 소비자와 환자 모두 AI 도입 기관에 워크플로 단위의 검증 자료를 요청할 권리가 있다.

② 식약처 규제, '개별 심사'에서 '시스템 통합 심사'로 바뀌어야 한다

식약처의 현행 AI 의료기기 심사는 단일 소프트웨어 성능 중심이다. 글로벌 논의가 복합 워크플로 신뢰도 평가 쪽으로 빠르게 이동하는 만큼, 국내 규제 당국도 기준을 업그레이드해야 한다. 이 논의에 뒤처질 경우 국내 의료 AI 산업의 해외 진출 경쟁력에도 직접적 타격이 불가피하다.

③ 의료만의 문제가 아니다 — 금융·법률·제조업도 동일한 위험에 노출돼 있다

여러 AI가 단계별로 연결되는 금융 심사, 법률 검토, 제조 품질 관리 등 모든 산업에서 동일한 '신뢰도 연쇄 하락' 현상이 벌어질 수 있다. 인간과 AI가 함께 낸 결과물 전체를 평가 단위로 삼는 새로운 패러다임은, AI를 도입하는 모든 조직이 내면화해야 할 기준이 될 것이다.

김주원 글로벌이코노믹 기자 park@g-enews.com