딥시크, 시각 인식으로 텍스트 압축하는 멀티모달 AI 모델 공개

토큰 수 7~20배 감소…97% 디코딩 정확도 달성
금융·과학 분야 적용 기대…"AI 효율성·비용 절감" 지속 노력

딥시크(Deepseek) 로고는 2025년 1월 27일에 찍은 이 그림에서 볼 수 있다. 사진=로이터

중국 AI 스타트업 딥시크(DeepSeek)가 21일 시각적 인식을 정보의 압축 매체로 사용하여 훨씬 적은 수의 토큰(모델이 처리하는 텍스트의 최소 단위)으로 크고 복잡한 문서를 처리할 수 있는 새로운 멀티모달 인공지능 모델을 출시했다고 21일(현지시각) 사우스차이나모닝포스트(SCMP)가 보도했다.

온라인 개발자 플랫폼 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 사용할 수 있는 오픈소스 딥시크-OCR(광학 문자 인식) 모델은 대규모 언어 모델(LLM)의 텍스트를 압축하기 위한 "비전 인코더의 역할에 대한 조사"의 결과라고 항저우에 본사를 둔 AI 스타트업이 블로그 게시물에서 밝혔다.

이러한 접근 방식을 사용하면 LLM은 컴퓨팅 비용에 비례하여 증가하지 않고 방대한 양의 텍스트를 처리할 수 있다.

회사는 "딥시크-OCR을 통해 우리는 비전-텍스트 압축이 다양한 역사적 맥락 단계에서 7배에서 20배까지 상당한 토큰 감소를 달성할 수 있음을 입증했으며, LLM의 장기 컨텍스트 문제를 해결할 수 있는 유망한 방향을 제시했다"고 밝혔다.

이는 AI 모델의 효율성을 높이는 동시에 AI 모델의 구축 및 사용 비용을 절감하려는 딥시크의 꾸준한 노력을 보여준다. 회사는 지난해 12월과 올해 2월 각각 출시된 획기적인 오픈소스 모델 V3와 R1 개발에서도 이러한 원칙을 따랐다.

회사의 블로그 게시물에 따르면 딥시크-OCR은 인코더인 딥인코더(DeepEncoder)와 디코더인 딥시크3B-MoE-A570M의 두 가지 주요 구성 요소로 구성됐다.

전자는 모델의 핵심 엔진 역할을 한다. 고해상도 입력에서 낮은 활성화를 유지하는 동시에 강력한 압축률을 달성하여 토큰 수를 줄인다.

5억7000만 개의 매개변수가 있는 MoE(Mixture-of-Experts) 모델인 디코더는 원본 텍스트를 재구성한다. MoE 아키텍처는 모델을 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크 또는 "전문가"로 나누어 작업을 공동으로 수행한다.

딥시크-OCR은 이미지 캡션 및 객체 감지와 같은 표준 비전 작업을 처리하는 것 외에도 표, 수식, 기하학적 다이어그램을 포함하여 고도로 구조화된 시각적 콘텐츠를 구문 분석하는 데 사용할 수 있으며, 이는 금융 및 과학 분야에서 적용하는 데 도움이 될 수 있다.

벤치마크 테스트를 인용하여 회사는 텍스트 토큰 수가 시각적 토큰 크기의 10배 이내(압축률이 10배 미만)일 때 딥시크-OCR이 97%의 디코딩 정확도를 달성했다고 밝혔다.

20배 비율에서도 이 모델은 약 60%의 정확도를 기록하여 극도의 압축에도 불구하고 정보를 보존하는 능력을 강조했다.

다양한 문서 이해를 위한 벤치마크인 옴니닥벤치(OmniDocBench)에서 딥시크-OCR은 훨씬 적은 수의 토큰을 사용하면서 GOT-OCR 2.0 및 MinerU 2.0과 같은 주요 OCR 모델을 능가했다.

회사에 따르면 새 모델은 또한 단일 엔비디아 A100-80G 그래픽 처리 장치로 구동되는 컴퓨팅 시스템에서 하루에 40만 페이지 이상의 훈련 데이터를 생성할 수 있다.

딥시크-OCR을 사용하면 사용자는 최근 콘텐츠가 고해상도로 보존되는 반면 이전 컨텍스트는 컴퓨팅 리소스를 덜 소비하는 확장 가능한 초장기 컨텍스트 처리를 처리할 수 있다. 이는 딥시크-OCR이 정보 보존과 효율성의 균형을 맞추는 이론적으로 무제한 컨텍스트 아키텍처의 길을 열 수 있음을 시사한다.

이번 발표는 딥시크가 AI 업계에서 효율성과 비용 절감의 선구자로 자리매김하려는 노력의 연장선상에 있다. 회사는 지난해 말 V3 모델로 글로벌 AI 업계에 충격을 주었고, 올해 초 R1 모델로 추론 능력의 새로운 표준을 제시한 바 있다.

전문가들은 딥시크의 접근 방식이 AI 개발의 패러다임을 바꾸고 있다고 평가한다. 기존의 대규모 컴퓨팅 파워에 의존하는 방식 대신 효율적인 아키텍처와 알고리즘 혁신으로 성능을 높이는 방식이 주목받고 있다.

한 AI 전문가는 "딥시크의 OCR 모델은 시각 정보를 활용해 텍스트를 효율적으로 압축함으로써 장기 컨텍스트 처리의 새로운 가능성을 열었다"며 "이는 특히 방대한 문서를 다루는 금융, 법률, 과학 분야에서 큰 영향을 미칠 것"이라고 평가했다.

딥시크의 혁신은 중국이 반도체 제재에도 불구하고 AI 기술에서 빠르게 발전하고 있음을 보여준다. 회사는 제한된 컴퓨팅 자원으로도 세계 최고 수준의 AI 모델을 개발할 수 있음을 증명했다.

지난 9월 말 회사는 학습 및 추론 효율성을 개선하는 동시에 애플리케이션 프로그래밍 인터페이스(API) 비용을 대폭 절감하는 V3 모델의 "실험적" 버전인 딥시크 V3.2-Exp를 출시한 바 있다.

업계는 딥시크의 지속적인 혁신이 AI 개발 비용을 낮추고 더 많은 기업과 개발자가 첨단 AI 기술에 접근할 수 있게 만들 것으로 기대하고 있다.

오픈소스로 공개된 딥시크-OCR은 개발자 커뮤니티에서 빠르게 확산되어 다양한 응용 분야에서 활용될 것으로 전망된다. 특히 대용량 문서 처리가 필요한 분야에서 비용 효율적인 솔루션을 제공할 것으로 기대된다.

신민철 글로벌이코노믹 기자 shincm@g-enews.com