닫기

글로벌이코노믹

중국, 합리적 가격의 도메인 특화 AI 모델 개발...AI 새 지평 열리나?

글로벌이코노믹

중국, 합리적 가격의 도메인 특화 AI 모델 개발...AI 새 지평 열리나?

알리바바·바이트댄스 출신 양홍샤 교수, "전문 분야별 AI 민주화" 추진
소규모 특화 모델, 대형 모델 능가하는 성능에 비용은 대폭 절감
알리바바 로고. 사진=로이터이미지 확대보기
알리바바 로고. 사진=로이터
홍콩 폴리테크닉 대학교(PolyU)의 저명한 인공지능(AI) 연구자인 양홍샤(Yang Hongxia) 교수가 합리적인 가격의 도메인 특화 AI 모델 개발에 앞장서고 있다. 알리바바와 바이트댄스 같은 중국 대형 기술기업 출신의 양 교수는 다양한 전문 분야의 특성에 맞춘 저렴하면서도 효율적인 AI 모델을 개발하는 데 주력하고 있다.

양 교수는 최근 사우스차이나모닝포스트와의 인터뷰에서 "현재의 대규모 언어 모델(LLM)은 일반 지능 분야에서 인상적인 진전을 이뤘지만, 제조나 생화학 같은 특정 영역에서는 여전히 부족하다"고 지적했다. 그 이유로 "이러한 분야에 대한 관련 데이터의 상당 부분이 일반 웹에서 크롤링할 수 없어 AI 모델 개발에 통합되지 않았기 때문"이라고 설명했다.

양 교수는 기술 업계에서 수십 년간 경력을 쌓은 후 작년에 PolyU 컴퓨팅 부서에 합류했다. 그는 현재 AI 아카데미 설립을 주도하며, 폴리우(PolyU), 저장대학교, 하얼빈이공대학 등 중국 대학의 학생들과 함께 'AI 개발의 민주화'를 위해 노력하고 있다.

이 팀의 목표는 도메인 전문가들이 홍콩과 저장성, 광둥성의 고성능 컴퓨팅 센터를 통해 저렴한 그래픽 처리 장치(GPU)를 사용해 분야별 특화 AI 모델을 훈련할 수 있는 플랫폼을 제공하는 것이다. 양 교수는 이를 "도메인별로 지속적으로 진행되는 사전 훈련 인프라"라고 설명하며, 비용 효율적이고 접근 가능한 클라우드 서비스에 비유했다.
이달 초, 양 교수 팀은 컴퓨팅 비용을 최소화하면서도 소규모 모델이 전문 분야 내에서 경쟁력 있는 추론 작업을 수행할 수 있도록 설계된 학습 파이프라인을 소개하는 논문을 발표했다. 이 접근 방식을 사용하면 6710억 개의 매개변수로 구성된 딥시크 R1과 같은 대규모 모델에 비해, 10억~30억 개의 매개변수만을 가진 소규모 모델이 6000GPU 시간 이내에 훈련을 완료하고도 최첨단 추론 기능을 달성할 수 있다.

양 교수는 "AI 개발에서 전문 분야는 때때로 제외되어 왔다"며 다양한 데이터 처리 방법과 광범위한 GPU 리소스에 대한 제한된 접근 같은 문제를 언급했다. 현재 그의 팀은 저장성과 베이징의 최고 병원들과 협력하여 암 관련 기초 모델을 연구하고 있다.

MIT 테크놀로지 리뷰의 2025년 획기적인 기술 목록은 AI 분야에서 소형 모델에 대한 관심이 높아지고 있음을 강조하고 있다. "새로운 고급 모델에 대한 한계 이익이 줄어들면서 연구원들은 더 적은 비용으로 더 많은 작업을 수행하는 방법을 알아내고 있다. 특정 작업의 경우, 집중된 데이터 세트에 대해 훈련된 더 작은 모델은 이제 더 큰 모델만큼 잘 수행할 수 있다"고 설명한다.

양 교수는 "이 접근 방식은 또한 덜 발전된 이기종 컴퓨팅 리소스의 유용성을 극대화하여 가정용 칩을 소형 모델 훈련에 보다 효과적으로 사용할 수 있도록 한다"고 덧붙였다.

양 교수팀은 여러 도메인별 모델을 하나의 더 큰 피벗 모델로 통합하는 "model over models"라는 새로운 기계 학습 패러다임도 개척하고 있다. 그는 이를 데이터에서 직접 학습하는 것이 아니라 "교과서"(도메인별 모델)를 통해 학습하는 것에 비유했다.

팀의 최신 논문은 작은 모델에 초점을 맞춘 효율적인 훈련 파이프라인인 'InfiFusion'을 소개한다. 이 기술은 추론, 코딩, 수학 및 명령 수행 작업을 포함한 11개의 벤치마크에서 알리바바의 Qwen-2.5-14B-Instruct와 마이크로소프트의 Phi-4를 포함한 주요 모델을 능가했다.

특히 주목할 만한 점은 InfiFusion이 기존 LLM 교육에 일반적으로 필요한 수백만 시간의 일부에 불과한 160 H800 GPU 시간으로 이러한 우수한 결과를 달성했다는 것이다.

양 교수는 중국 AI 스타트업 딥시크(DeepSeek)의 최근 성과에 대해서도 언급했다. 그는 딥시크가 훈련 전과 훈련 후 단계 모두에서 중요한 돌파구를 마련했다고 평가했다.

특히 8비트 부동 소수점 혼합 정밀 컴퓨팅을 통해 모델 성능을 유지하고 강화 학습 기술을 개선하는 동시에 계산 및 리소스 사용의 효율성을 크게 향상시켰다고 설명했다. 일반적으로 AI 모델은 32비트 또는 16비트 정밀도를 사용하는 점을 감안하면 이는 주목할 만한 진전이다.

양 교수는 또한 딥시크가 시장에 나와 있는 다른 많은 모델보다 투명성이 뛰어나 다양한 부문의 산업이 AI 생태계에 참여할 수 있는 더 명확한 경로를 제공한다고 칭찬했다. 딥시크는 지난주 AI 개발을 가속하기 위해 5개의 코드 저장소를 오픈소스로 공개할 것이라고 발표했다.

양 교수와 팀은 앞으로 로우 비트 사전 훈련에 집중할 계획이며, 특화된 소형 AI 모델 개발을 통해 인공지능 기술의 접근성과 실용성을 높이는 데 계속해서 기여할 전망이다.


신민철 글로벌이코노믹 기자 shincm@g-enews.com