반도체

“학습은 끝났다, 이제 추론이다”…엔비디아, GTC 2026서 ‘추론 전용 칩’ 공개 예정

김문기 기자
젠슨 황 엔비디아 CEO가 ‘3D익스피리언스 월드 2026’ 기자간담회에서 질의응답에 답하고 있다.
젠슨 황 엔비디아 CEO가 ‘3D익스피리언스 월드 2026’ 기자간담회에서 질의응답에 답하고 있다.

[디지털데일리 김문기기자] 엔비디아가 학습용 GPU 시장의 독점을 넘어, 이제는 실제 AI 서비스가 구동되는 ‘추론(Inference)’ 시장까지 통째로 집어삼키려 하고 있다.

엔비디아는 오는 16일(현지시간) 미국 새너제이에서 개막하는 GTC 2026에서 더 이상 거대한 학습용 GPU가 아닌, 작고 빠르며 저렴한 ‘추론 전용 신무기’를 공개할 예정이다.

13일(현지시간) 월스트리트저널(WSJ) 등 외신에 따르면, 엔비디아는 이번 GTC 2026에서 기존 GPU 아키텍처와는 완전히 궤를 달리하는 추론 특화형 AI 칩을 전격 발표한다. 젠슨 황 CEO가 지난달 실적 발표에서 “세상이 본 적 없는 여러 개의 새로운 칩을 보게 될 것”이라고 자신감을 내비쳤던 그 제품인 셈이다.

업계에서는 엔비디아가 2025년 12월 약 200억 달러에 ‘우회 인수’한 것으로 알려진 AI 반도체 스타트업 그루크(Groq)의 기술이 이번 신형 칩에 전격 도입된 것으로 보고 있다. 그루크는 데이터 처리 지연시간(Latency)을 혁신적으로 줄인 LPU(언어 처리 장치) 기술로 정평이 나 있는 곳이다. 이번 신형 칩은 기존 HBM(고대역폭메모리) 대신 초고속 SRAM을 적극 활용해, 추론 성능을 극대화하면서도 전력 소모와 비용을 기존 대비 10분의 1 수준으로 낮춘다.

엔비디아는 앞서 지난 11일, 차세대 추론 모델인 ‘네모트론 3 슈퍼(Nemotron-3 Super)’을 공개하기도 했다. 이 모델은 1,200억 개의 파라미터를 보유하면서도 실제 연산에는 120억 개만 사용하는 하이브리드 MoE(전문가 혼합) 구조를 채택했다. 이를 통해 기존 대비 처리 성능(Throughput)을 최대 5배~7.5배나 끌어올려, 복잡한 업무를 자율적으로 수행하는 ‘에이전트 AI’의 두뇌 역할을 맡게 된다.

김문기 기자
moon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널