구글 AI '알파게놈', 인간 DNA 98% 비밀 해독 성공… 가짜 논문, 연 수십만 건 급증

100만 염기쌍 단일 분석으로 유전질환 예측 정밀도 획기적 향상
ChatGPT 활용 논문공장 범람에 "학술 생태계 붕괴 위기" 경고 잇따라

구글 딥마인드가 인간 유전체 98%를 차지하는 비암호화 DNA 영역 해석에 성공한 인공지능(AI) 모델 '알파게놈(AlphaGenome)'을 내놓았지만, 동시에 AI가 만든 가짜 과학 논문이 학술 생태계를 위협하면서 과학계가 AI 기술의 양면성 앞에 섰다. 이미지=빙 이미지 크리에이터

구글 딥마인드가 인간 유전체 98%를 차지하는 비암호화 DNA 영역 해석에 성공한 인공지능(AI) 모델 '알파게놈(AlphaGenome)'을 내놓으면서 생명과학 연구의 새 지평을 열었지만, 동시에 AI가 만든 가짜 과학 논문이 학술 생태계를 위협하면서 과학계가 AI 기술의 양면성 앞에 섰다.

구글 딥마인드는 지난달 28일(현지시간) 국제학술지 네이처를 통해 최대 100만 개 염기쌍의 DNA 서열을 단일 염기 수준에서 정밀 분석하는 AI 모델 알파게놈을 공개했다고 밝혔다. 이 모델은 24개 유전체 예측 과제 중 22개에서 기존 최고 성능 모델보다 우수한 결과를 보였다. 유로뉴스 등 외신 보도에 따르면, 딥마인드 푸시미트 콜리 연구 부사장은 "유전체 전반에 걸쳐 장거리 맥락, 염기쌍 정밀도, 최고 성능을 통합한 첫 모델"이라며 "과학계에 귀중한 자원이 될 것"이라고 말했다.

지난해 6월 첫 공개 이후 현재까지 160개국 약 3000명 과학자가 암과 신경퇴행성 질환, 감염병 연구에 알파게놈을 활용하고 있으며, 하루 API(응용프로그램 인터페이스) 호출 건수는 100만 건에 달한다고 스탯뉴스는 보도했다.

'게놈 암흑물질' 98% 영역 해독… 희귀질환 치료 실마리

알파게놈의 핵심 성과는 그간 '게놈의 암흑물질'로 불린 비암호화 DNA 영역의 기능 해석이다. 인간 유전체에는 약 30억 개의 염기쌍이 있지만, 이중 단백질 생성 지시 영역은 2%에 불과하다. 나머지 98%는 유전자가 언제, 어디서, 얼마나 활성화될지 조절하는 역할을 하지만, 이 영역의 변이가 질병에 미치는 영향을 예측하기는 매우 어려웠다.

알파게놈은 DNA가 어떻게 작동하는지 보여주는 여러 특성을 동시에 예측한다. 유전자가 켜지고 꺼지는 과정, DNA에서 단백질을 만들기 위해 필요한 정보만 골라내는 과정(RNA 스플라이싱), DNA가 얼마나 느슨하게 풀려 있는지, DNA를 감싸는 단백질이 어떻게 변하는지 등 수천 가지를 분석한다. 특히 DNA 정보를 골라내는 과정에서 오류가 생겨 발생하는 척수성 근위축증, 낭포성 섬유증 같은 희귀 유전질환 연구에 새 실마리를 제공할 수 있다는 평가다.

메모리얼 슬론 케터링 암센터 케일럽 라로 박사는 "알파게놈은 장거리 맥락, 염기 수준 정밀도, 유전체 예측 성능을 통합한 최초 모델"이라며 "생물학 연구의 중요한 전환점이 될 것"이라고 네이처에 밝혔다.

딥마인드는 급성 백혈병 사례에서 알파게놈의 실용성을 입증했다. 연구팀은 T세포 급성 림프구성 백혈병에서 TAL1 종양유전자에 영향을 미치는 돌연변이를 분석해, 변이가 유전자 발현을 조절하는 DNA 요소인 인핸서를 새로 만들고 TAL1 유전자 발현을 높이는 전 과정을 예측하는 데 성공했다.

AI 논문공장, 연 수십만 건 허위논문 양산… "최대 과학 위기"

하지만 AI가 과학 발전에 이바지하는 동시에, 학술 출판계는 AI가 만든 가짜 논문 범람으로 "최대 과학 위기"를 맞았다. 네이처와 롤링스톤 등 외신에 따르면, 페이퍼 밀(논문 공장)이 ChatGPT 같은 생성형 AI를 활용해 연간 수십만 건 허위 논문을 대량 생산하고 있다.

네이처가 보도한 바이오의학 전문가 분석 결과, 2022년 발표된 생물의학 논문 중 1.5~2%가 페이퍼 밀 산물로 추정됐다. 2024년에는 출판사 와일리가 힌다위 계열 논문 1만 1300건을 철회하고 19개 저널을 폐간했다. 네이처의 또 다른 보도에 따르면, AI 도구를 활용한 분석 결과 25만 건 이상 암 연구 논문이 페이퍼 밀과 유사한 텍스트 패턴을 보였다.

문제는 AI가 만든 허위 인용구가 정식 저널에까지 스며들었다는 점이다. 노르웨이 오슬로대 심리학과 댄 킨타나 교수는 지난달 초 권위 있는 심리학 저널 논문을 검토하다 자신이 쓴 적 없는 논문이 인용된 것을 발견했다. 롤링스톤에 따르면, 조지아주립대 앤드루 하이스 교수도 학생들이 AI가 만든 허위 인용구를 사용한 것을 적발했다.

동료평가마저 AI 장악… "지식 오염 영구화 우려"

더욱 심각한 것은 동료평가 시스템까지 AI가 파고들었다는 점이다. 베타킷 보도에 따르면, AI 텍스트 탐지 스타트업 GPTZero가 딥러닝 학회 ICLR 2026 제출 논문을 분석한 결과, 50개 이상 논문에서 AI가 만든 허위 인용구를 발견했다. 팽그램랩스가 ICLR 제출 논문 수천 건의 심사평을 분석한 결과, 절반 이상이 AI 지원을 받았고 약 5분의 1은 전적으로 AI가 작성한 것으로 나타났다.

UC 버클리와 코넬대 과학자들이 사이언스지에 발표한 연구에 따르면, 사전출판 플랫폼에서 AI 사용 저자의 월간 논문 출판 건수가 36.2~59.8% 늘었다. 아시아 저자들 사이에서 증가율이 가장 높았다.

페이퍼 밀들은 암 연구 분야에 효과적인 틀을 개발했다. 수천 개 단백질과 종양 세포 간 상호작용을 연구했다고 주장하지만, 획기적 결과가 아닌 한 아무도 검증하지 않는다는 점을 악용한 것이다. 2024년 학술지 프론티어스 인 셀 앤드 디벨롭먼털 바이올로지에는 터무니없이 큰 고환을 가진 쥐의 AI 생성 삽화가 실렸다가 철회됐다.

전문가들은 AI가 만든 허위 정보가 인류 지식 체계에 영원한 오염을 일으킬 것이라고 경고한다. 머레이주립대 A.J. 보스턴 교수는 최악의 경우 "AI가 대부분의 논문을 쓰고 AI가 내용을 비판하는" 공허한 대화가 이어질 수 있다고 우려했다.

케임브리지대 출판부 맨디 힐 학술 출판 책임자는 "이제부터는 쉴 틈 없이 진행되는 경주가 될 것"이라며 편집자와 심사자의 업무 부담 증가를 지적했다. 같은 대학 제니퍼 라이트 연구 진실성 책임자는 "암 연구처럼 진정한 역량을 갖춘 과학자가 절실히 필요한 분야에서 가장 심각한 피해가 발생하고 있다"고 말했다.

코넬대 정보과학과 폴 긴스파그 교수(arXiv 창립자)는 "ChatGPT 출시 후 원고 제출 속도가 계속 빨라지고 있다"며 "AI를 사용하는 과학자들이 미사용자보다 약 33% 더 많은 논문을 올린다"고 밝혔다.

현재 알파게놈은 비상업적 연구 목적으로 API를 통해 무료로 제공되고 있다. 딥마인드는 앞으로 모델 전체를 공개하고 학계·산업계와 협력 연구를 확대할 계획이다. 한편 과학계는 AI 탐지 도구 개발과 함께 '출판 아니면 소멸(publish or perish)' 문화를 근본부터 다시 살펴봐야 한다는 목소리가 커지고 있다.

박정한 글로벌이코노믹 기자 park@g-enews.com