토큰 수 7~20배 감소…97% 디코딩 정확도 달성
금융·과학 분야 적용 기대…"AI 효율성·비용 절감" 지속 노력
금융·과학 분야 적용 기대…"AI 효율성·비용 절감" 지속 노력

온라인 개발자 플랫폼 허깅페이스(Hugging Face)와 깃허브(GitHub)를 통해 사용할 수 있는 오픈소스 딥시크-OCR(광학 문자 인식) 모델은 대규모 언어 모델(LLM)의 텍스트를 압축하기 위한 "비전 인코더의 역할에 대한 조사"의 결과라고 항저우에 본사를 둔 AI 스타트업이 블로그 게시물에서 밝혔다.
이러한 접근 방식을 사용하면 LLM은 컴퓨팅 비용에 비례하여 증가하지 않고 방대한 양의 텍스트를 처리할 수 있다.
회사는 "딥시크-OCR을 통해 우리는 비전-텍스트 압축이 다양한 역사적 맥락 단계에서 7배에서 20배까지 상당한 토큰 감소를 달성할 수 있음을 입증했으며, LLM의 장기 컨텍스트 문제를 해결할 수 있는 유망한 방향을 제시했다"고 밝혔다.
회사의 블로그 게시물에 따르면 딥시크-OCR은 인코더인 딥인코더(DeepEncoder)와 디코더인 딥시크3B-MoE-A570M의 두 가지 주요 구성 요소로 구성됐다.
전자는 모델의 핵심 엔진 역할을 한다. 고해상도 입력에서 낮은 활성화를 유지하는 동시에 강력한 압축률을 달성하여 토큰 수를 줄인다.
5억7000만 개의 매개변수가 있는 MoE(Mixture-of-Experts) 모델인 디코더는 원본 텍스트를 재구성한다. MoE 아키텍처는 모델을 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크 또는 "전문가"로 나누어 작업을 공동으로 수행한다.
딥시크-OCR은 이미지 캡션 및 객체 감지와 같은 표준 비전 작업을 처리하는 것 외에도 표, 수식, 기하학적 다이어그램을 포함하여 고도로 구조화된 시각적 콘텐츠를 구문 분석하는 데 사용할 수 있으며, 이는 금융 및 과학 분야에서 적용하는 데 도움이 될 수 있다.
벤치마크 테스트를 인용하여 회사는 텍스트 토큰 수가 시각적 토큰 크기의 10배 이내(압축률이 10배 미만)일 때 딥시크-OCR이 97%의 디코딩 정확도를 달성했다고 밝혔다.
20배 비율에서도 이 모델은 약 60%의 정확도를 기록하여 극도의 압축에도 불구하고 정보를 보존하는 능력을 강조했다.
다양한 문서 이해를 위한 벤치마크인 옴니닥벤치(OmniDocBench)에서 딥시크-OCR은 훨씬 적은 수의 토큰을 사용하면서 GOT-OCR 2.0 및 MinerU 2.0과 같은 주요 OCR 모델을 능가했다.
회사에 따르면 새 모델은 또한 단일 엔비디아 A100-80G 그래픽 처리 장치로 구동되는 컴퓨팅 시스템에서 하루에 40만 페이지 이상의 훈련 데이터를 생성할 수 있다.
딥시크-OCR을 사용하면 사용자는 최근 콘텐츠가 고해상도로 보존되는 반면 이전 컨텍스트는 컴퓨팅 리소스를 덜 소비하는 확장 가능한 초장기 컨텍스트 처리를 처리할 수 있다. 이는 딥시크-OCR이 정보 보존과 효율성의 균형을 맞추는 이론적으로 무제한 컨텍스트 아키텍처의 길을 열 수 있음을 시사한다.
이번 발표는 딥시크가 AI 업계에서 효율성과 비용 절감의 선구자로 자리매김하려는 노력의 연장선상에 있다. 회사는 지난해 말 V3 모델로 글로벌 AI 업계에 충격을 주었고, 올해 초 R1 모델로 추론 능력의 새로운 표준을 제시한 바 있다.
전문가들은 딥시크의 접근 방식이 AI 개발의 패러다임을 바꾸고 있다고 평가한다. 기존의 대규모 컴퓨팅 파워에 의존하는 방식 대신 효율적인 아키텍처와 알고리즘 혁신으로 성능을 높이는 방식이 주목받고 있다.
한 AI 전문가는 "딥시크의 OCR 모델은 시각 정보를 활용해 텍스트를 효율적으로 압축함으로써 장기 컨텍스트 처리의 새로운 가능성을 열었다"며 "이는 특히 방대한 문서를 다루는 금융, 법률, 과학 분야에서 큰 영향을 미칠 것"이라고 평가했다.
딥시크의 혁신은 중국이 반도체 제재에도 불구하고 AI 기술에서 빠르게 발전하고 있음을 보여준다. 회사는 제한된 컴퓨팅 자원으로도 세계 최고 수준의 AI 모델을 개발할 수 있음을 증명했다.
지난 9월 말 회사는 학습 및 추론 효율성을 개선하는 동시에 애플리케이션 프로그래밍 인터페이스(API) 비용을 대폭 절감하는 V3 모델의 "실험적" 버전인 딥시크 V3.2-Exp를 출시한 바 있다.
업계는 딥시크의 지속적인 혁신이 AI 개발 비용을 낮추고 더 많은 기업과 개발자가 첨단 AI 기술에 접근할 수 있게 만들 것으로 기대하고 있다.
오픈소스로 공개된 딥시크-OCR은 개발자 커뮤니티에서 빠르게 확산되어 다양한 응용 분야에서 활용될 것으로 전망된다. 특히 대용량 문서 처리가 필요한 분야에서 비용 효율적인 솔루션을 제공할 것으로 기대된다.
신민철 글로벌이코노믹 기자 shincm@g-enews.com