구글이 쏘아올린 ‘저비용 AI’… 반도체는 수요 폭발이냐 단가 압박이냐 갈림길

토큰당 비용 최대 3분의 1로 낮춘 ‘제미나이 3.5 플래시’ 전격 공개… 훈련은 GPU·추론은 ASIC 분화 가속
빅테크 CAPEX ‘재배치’ 시나리오 작동… HBM4 선점 경쟁 및 파운드리 미세 공정 수율이 ‘생존 티켓’

구글이 연례 개발자 콘퍼런스 '구글 I/O 2026'에서 인프라 비용을 획기적으로 낮춘 최신 인공지능(AI) 모델과 물리 세계 시뮬레이션 모델을 기습 선보이며 판도 변화를 예고했다. 이미지=제미나이3

구글이 연례 개발자 콘퍼런스 '구글 I/O 2026'에서 인프라 비용을 획기적으로 낮춘 최신 인공지능(AI) 모델과 물리 세계 시뮬레이션 모델을 기습 선보이며 판도 변화를 예고했다.

CNBC는 구글이 19일(현지시각) 가성비와 처리 속도를 극대화한 '제미나이 3.5 플래시(Gemini 3.5 Flash)'를 전격 발표했다고 보도했다. 이번 발표는 기업용 소프트웨어 인프라 취약점을 찾아내며 독주 체제를 굳히던 앤스로픽의 신형 모델 '미토스(Mythos)'를 견제하고, 올해 기업공개(IPO)를 준비하는 오픈AI의 주도권을 빼앗으려는 포석으로 풀이된다.

구글의 고성능·저비용 칩 인프라 전환은 글로벌 빅테크의 설비투자(CAPEX) 효율화 경쟁을 촉발해 국내 반도체 업계의 차세대 고대역폭메모리(HBM) 및 파운드리 수급 환경에도 상당한 파장을 미칠 전망이다.

모델 경량화와 TPU 최적화… 추론당 연산 비용 혁신의 메커니즘

구글이 전면에 내세운 전략은 '인프라 비용 혁신'을 통한 생태계 선점이다. 순다르 피차이 구글 최고경영자(CEO)는 언론 브리핑을 통해 제미나이 3.5 플래시가 기존 프론티어 모델과 비교해 토큰당 비용이 절반에서 최대 3분의 1 수준에 불과하다고 밝혔다.

이러한 비용 절감은 대규모 모델 경량화 기술과 구글 고유의 텐서처리장치(TPU) 하드웨어 최적화가 맞물린 결과다. 추론당 필요한 부동소수점 연산(FLOPs)을 획기적으로 줄여, 동일한 지연 시간(Latency) 기준으로 데이터 처리량(Throughput)을 대폭 끌어올린 것이다. 구글은 이 모델을 검색 AI 모드와 제미나이 앱의 기본 모델로 즉시 적용했다. 자사 서비스의 연산 비용 절감과 사용자 경험 개선을 동시에 달성한다는 구상을 현실화한 셈이다. 한편 연산 제어가 무겁고 정교한 제미나이 3.5 프로 모델은 내부 검증을 거쳐 다음 달 출시할 예정이다.

시장에서는 구글의 행보를 인공지능 자본 지출 과잉 논란에 대한 정면 돌파로 해석한다. 월가 전문가들이 대규모 데이터센터 투자에 따른 구체적인 수익성 증명을 요구하는 상황에서, 서비스 전반의 심층 통합과 비용 절감을 동시에 달성하는 하이브리드 전략을 선택했기 때문이다. 증권가 관계자는 "구글의 저비용 고효율 모델 확산은 빅테크 기업들의 막연한 인프라 확장 경쟁이 실질적인 수익성 중심으로 전환되는 계기가 될 것"이라고 진단했다.

비서 ‘스파크’와 월드 모델 ‘옴니’… 구독·광고로 이어지는 수익화 설계

구글은 모델 자체의 성능 개량에 그치지 않고 구체적인 서비스 실행 체제(Agentic AI)도 구체화했다. 함께 발표한 '제미나이 스파크(Gemini Spark)'는 연결된 앱 전체를 탐색하며 사용자 명령을 대행하는 범용 개인 비서 서비스다. 다음 주부터 구글 AI 울트라 구독자를 대상으로 베타 서비스를 시작한다. 물리적 환경을 시뮬레이션하는 월드 모델 '옴니(Omni)' 역시 영상 속 객체를 추가하거나 행동을 편집하는 기능을 지원하며 유튜브 쇼츠와 동영상 편집 플랫폼인 구글 플로우 등에 결합해 창작자 생태계를 묶어두는 록인(Lock-in) 효과를 낼 것으로 보인다.

이 같은 에이전트 서비스와 시뮬레이션 모델의 고도화는 구글의 명확한 수익화 구조와 연결된다. 구글은 초가성비 모델로 API 호출 비용을 대폭 낮춰 외부 개발자 생태계를 장악하는 한편, 유튜브 쇼츠 등 크리에이터 이코노미와 결합해 정교한 타깃 광고 매출을 극대화할 수 있다. 나아가 제미나이 스파크를 통한 프리미엄 구독 모델 요금을 유도해 고비용 인프라 투자를 실질적인 매출로 회수하겠다는 전략이다. 국내 AI 학계 관계자는 "구글이 검색과 유튜브라는 독점적 플랫폼에 가성비 모델을 이식하면서 사용자 대행 비서 시장의 주도권을 쥐려는 의도가 명확하다"고 분석했다.

빅테크 CAPEX 재배치 시나리오… ‘훈련은 GPU, 추론은 ASIC’ 분화 가속

시장의 관심은 이 같은 빅테크의 인프라 효율화 기조가 국내 반도체 생태계에 미칠 영향에 쏠린다. 기술 매커니즘적으로 인프라 시장은 ‘훈련(LLM 개발)은 엔비디아 GPU 중심, 추론(AI 서비스 운영)은 자체 칩(ASIC) 중심’으로 급격히 분화하고 있다. 구글의 TPU를 비롯해 아마존의 트레이니움·인퍼런시아, 마이크로소프트의 마이아 등 빅테크의 자체 가속기 도입 확대는 국내 반도체 공급망에 두 가지 시나리오를 제시한다.

첫째, 총 CAPEX 감소에 따른 단가 압박 시나리오다. 빅테크들이 가성비 위주로 전환하며 인프라 투자 총액을 줄일 경우, 메모리 공급가 인하 압박으로 이어져 삼성전자와 SK하이닉스의 수익성에 제동이 걸릴 수 있다.

둘째, 인프라 재배치에 따른 추론 수요 폭발 시나리오다. 토큰당 처리 비용이 낮아지면 빅테크들은 절감된 예산을 대규모 추론 서비스 확장 및 데이터센터 증설에 재투자하게 된다. 이는 절대적인 연산량 폭증으로 이어져 고대역폭메모리(HBM)와 고용량 D램 수요를 다시 한번 촉발하는 요인이 된다.

HBM4 타이밀 리스크와 파운드리 수율… ‘생존 티켓’ 거머쥐어야

결과적으로 국내 반도체 업계는 더 공격적인 기술 격차 확보라는 시험대에 섰다. HBM3E 시장이 이미 주요 공급사 간의 경쟁 심화로 레드오션화되는 조짐을 보이는 상황에서, 커스텀(맞춤형) 칩 요건이 강화되는 ‘HBM4(6세대)’ 시장 선점 실패는 곧 구조적 도태를 의미한다.

파운드리 역시 마찬가지다. 구글을 비롯한 빅테크들의 맞춤형 자체 추론 칩(ASIC) 발주가 늘어남에 따라, 첨단 공정 수율 확보는 단순한 기술력 증명이 아니라 글로벌 AI 공급망 진입 자체를 결정짓는 '생존 티켓'이 되었다.

반도체 업계에서는 빅테크들이 하드웨어 단가를 낮추기 위해 맞춤형 자체 칩 도입을 늘릴 가능성이 크기 때문에 삼성전자와 SK하이닉스에는 HBM4 등 차세대 규격 선점과 파운드리 미세 공정 수율 확보라는 고난도 과제가 주어질 전망이라고 보고 있다. 다만 정부가 최근 발표한 반도체 금융 지원 프로그램 등 정책적 완충 요인이 가동되고 있어 기업들의 차세대 미세 공정 전환 속도는 탄력을 받을 수 있다.

투자자가 지금 당장 확인해야 할 3대 체크포인트

빅테크의 인프라 효율화 경쟁 속에서 반도체 투자자들이 향후 시장 방향성을 가늠하기 위해 주시해야 할 핵심 지표는 다음과 같다.

첫째, 하이퍼스케일러들의 분기별 설비투자(CAPEX) 실적 추이다. 구글 등 빅테크의 가성비 모델 도입이 전체 인프라 투자 규모 축소로 이어지는지, 혹은 절감된 비용이 다른 하드웨어 증설로 재투자되는지 확인해야 한다.

둘째, 안드로이드 진영의 온디바이스 AI PC 및 스마트폰 침투율이다. 제미나이 3.5 플래시처럼 가볍고 빠른 모델이 기기 내부에서 얼마나 매끄럽게 구동되어 실제 고용량 메모리 수요를 창출하는지 점검해야 한다.

셋째, 엔비디아의 차세대 그래픽처리장치(GPU) 출하 일정과 HBM4 탑재 비율이다. 구글의 자체 칩 확대 흐름 속에서도 엔비디아 독점 체제가 유지되는지, 국내 기업의 차세대 HBM 수주 물량에 변동이 없는지 주시해야 한다.

거대 플랫폼과 저비용 인프라의 결합이 빨라지는 만큼, 공급망 내부의 차세대 미세 공정 수율 제고 속도가 향후 반도체 주가의 향방을 가르는 핵심 변수가 될 것이다.

김주원 글로벌이코노믹 기자 park@g-enews.com