엔비디아 AI 학습에 불법 도서 500테라바이트 사용 의혹...이사회 승인 정황 포착

세계 최대 해적판 플랫폼 '안나스 아카이브'와 접촉...불법성 경고에도 협력 검토
추론 칩 투자는 가속...바세텐에 2200억 원·특허청 "AI 입력 시 신규성 상실" 경고

엔비디아가 세계 최대 불법 복제 도서 데이터베이스를 인공지능(AI) 학습에 활용하는 방안을 이사회 차원에서 승인했다는 의혹이 제기됐다. 사진=로이터

엔비디아가 세계 최대 불법 복제 도서 데이터베이스를 인공지능(AI) 학습에 활용하는 방안을 이사회 차원에서 승인했다는 의혹이 제기됐다. 폴란드 게임 전문 매체 gry-온라인은 20일(현지시각) 저작권 침해 소송 과정에서 엔비디아가 '안나스 아카이브'라는 불법 복제 플랫폼과 접촉한 정황이 드러났다고 보도했다.

소송 문서에 따르면 엔비디아 데이터 전략팀은 안나스 아카이브 측에 "대형언어모델(LLM) 사전 학습에 귀사 데이터 통합을 검토 중"이라며 "관련 위험을 감수할 의향이 있는지 내부 분석 중"이라고 밝혔다. 안나스 아카이브는 이 데이터가 불법임을 경고하고 경영진 동의 여부를 물었으며, 일주일 뒤 엔비디아로부터 승인 답변을 받았다고 전했다.

500테라바이트 불법 데이터 제공 제안...협력 실행 여부는 미확인

안나스 아카이브는 엔비디아에 총 500테라바이트 분량의 불법 복제 도서를 제공할 수 있다고 제안했다. 토렌트프릭에 따르면 저작권자들은 지난 16일 수정 소송장을 제출하면서 "불법성 경고를 받은 지 며칠 뒤 엔비디아 경영진이 해당 활동에 '녹색 신호'(허용되거나 승인을 의미)를 보냈다"고 주장했다.

실제 협력이 이뤄졌는지는 확인되지 않았다. 다만 토렌트프릭은 "대형 기술기업이 불법 복제 플랫폼과 협력한 정황이 드러난 첫 사례"라고 평가했다. 안나스 아카이브는 최근 여러 도메인을 잃었으며, 엔비디아는 아직 이 의혹에 답변하지 않고 있다.

이번 소송은 원래 2024년 법정에 제기됐으나, 올해 들어 새로운 증거가 추가되면서 수정 소송으로 확대됐다. 업계에서는 AI 기업들의 데이터 수집 관행이 전면 재검증 국면을 맞을 것이라는 분석이 나온다.

AI 추론 인프라에 2200억 원 투자...학습서 구동으로 무게중심 이동

한편 엔비디아는 AI 추론 분야 투자를 가속화하고 있다. 월스트리트저널(WSJ)은 지난 20일 엔비디아가 AI 추론 스타트업 바세텐에 1억 5000만 달러(약 2200억 원)를 투자했다고 보도했다. 바세텐은 이번 투자로 기업가치 50억 달러(약 7조 3900억 원)를 인정받아 이전 평가액의 두 배 이상 뛰었다.

2019년 설립된 바세텐은 AI 코드 편집기 커서, 메모 플랫폼 노션 등 기업들이 대형 AI 모델을 배포하고 운영하도록 돕는다. 공동창업자 투힌 스리바스타바 최고경영자(CEO)는 "추론 분야의 아마존웹서비스(AWS)를 만들겠다"고 밝힌 바 있다. 바세텐은 이번 투자를 포함해 총 5억 8500만 달러(약 8650억 원)를 유치했다.

이번 투자는 벤처캐피털 IVP와 구글 모회사 알파벳의 독립 성장 펀드 캐피털G가 주도했으며, 본드·그레이록·스파크캐피털 등 기존 투자자들도 참여했다. 바세텐의 세 번째 투자 유치는 지난 1년 동안 이뤄졌다.

엔비디아는 지난해 12월 스타트업 칩 설계사 그록의 AI 추론 기술에 200억 달러(약 29조 5900억 원) 라이선스 계약을 맺었다. 젠슨 황 CEO가 이끄는 엔비디아는 오픈AI에 최대 1000억 달러(약 147조 원) 투자를 약속했으며, AI 애플리케이션 개발 기술을 보유한 수십 개 소규모 기업에도 지분을 확보했다.

추론 분야 스타트업들은 새로운 투자 열풍을 맞고 있다. 파이어웍스AI는 지난해 10월 기업가치 40억 달러(약 5조 9100억 원)로 2억 5000만 달러(약 3690억 원)를 유치했다. 추론 전용 칩을 설계한 세레브라스는 오픈AI와 수십억 달러 규모 파트너십을 체결한 뒤 기업가치 220억 달러(약 32조 5500억 원)로 10억 달러(약 1조 4700억 원) 투자 유치 협상 중이다.

특허청 "AI에 핵심 정보 입력 시 신규성 상실"...발명 보호 주의보

AI 활용 과정에서 지식재산권 침해 우려도 커지고 있다. 폴란드 법률 전문지 프라보는 지난 20일 폴란드 특허청이 발명가들에게 "챗GPT·제미나이 같은 AI 챗봇에 발명 핵심 요소를 입력하면 특허 신규성을 잃을 수 있다"고 경고했다고 전했다.

폴란드 특허청은 "대화창에 입력된 모든 데이터는 AI 모델 학습 등에 사용될 수 있어 공개된 것으로 간주될 수 있다"며 "산업재산법 제25조에 따라 특허 우선권 결정 전 공개된 정보는 신규성을 인정받지 못한다"고 밝혔다.

폴란드 특허 변호사협회 파벨 쿠르츠만 회장은 "위협은 매우 현실이다"며 "특히 비밀 유지 규칙이 없거나 제한된 오픈 시스템에서 특허 청구항을 준비하면 기술 세부사항이 제3자에게 공개될 수 있다"고 말했다.

한스베리 톰키엘 법률사무소 나탈리아 바살라이 변호사는 "AI 모델이 우리 발명을 학습해 미래에 다른 사용자에게 유사한 힌트를 전달하면 신규성이 파괴된다"며 "경쟁사가 이를 근거로 특허 무효 청원을 제기할 수 있다"고 경고했다.

마리에타 포지니악 법률 고문은 "대부분 사용자는 이용약관을 분석하지 않는다"며 "기술 제공자는 입력 콘텐츠로 모델을 학습할 권리를 보유하며, 문의를 보내는 순간 정보는 기밀이 아니게 된다"고 지적했다.

전문가들은 온프레미스 솔루션 사용을 가장 안전한 방법으로 꼽았다. 클라우드 도구를 쓸 경우 데이터 소유권·보안 조항, 암호화 표준, 접근 허가 정책 등을 꼼꼼히 확인하고 필요 시 비밀유지계약(NDA)을 체결해야 한다고 조언했다.

2025년 NASK 보고서에 따르면 직원 3분의 2 이상이 직장에서 생성형 AI 도구 사용 지침을 받지 못한 것으로 나타났다. 업계에서는 대기업은 AI 사용 절차를 도입했지만 중소기업은 대부분 절차가 없어 연구 결과가 통제되지 않은 채 공개될 위험이 높다는 분석이 나온다.

박정한 글로벌이코노믹 기자 park@g-enews.com