반도체

AMD-레드햇, 분산추론 기업용 생성형 AI 가속…“LLM-D로 비용 낮춘다” [AMD AAI 2025]

새너제이(미국)=김문기 기자
밤시 보파나 AMD AI 수석 부사장(좌)과 크리스 라이트(Chris Wright) 레드햇 CTO
밤시 보파나 AMD AI 수석 부사장(좌)과 크리스 라이트(Chris Wright) 레드햇 CTO

[디지털데일리 김문기 기자] AMD와 레드햇(Red Hat)이 손잡고 생성형 AI의 현실적 확산을 위한 기반 구축에 속도를 낸다. 양사는 대규모 언어모델(LLM) 추론 과정에서 발생하는 병목을 해결하고, 기업이 생성형 AI를 실제 업무에 도입할 수 있도록 새로운 분산 추론 프레임워크인 ‘LLM-D’를 공동 개발하고 있다.

밤시 보파나 AMD AI 수석 부사장은 12일(현지시간) 미국 새너제이 컨벤션 센터에서 개최된 '어드밴싱 AI 2025(advancing AI 2025, AAAI 2025)’에서 “생성형 AI가 실질적인 애플리케이션으로 자리 잡기 위해서는 추론 비용을 낮추는 것이 핵심 과제”라며 “이 문제 해결의 실마리로 분산 추론(distributed inference)이 주목받고 있다”고 강조했다.

LLM을 실제로 활용하는 추론 과정은 ‘프리필(prefill)’과 ‘디코드(decode)’라는 두 단계로 나뉜다. 전통적으로 이 두 단계를 하나의 GPU에서 처리했지만, 이는 대형 모델이나 수요 급증 상황에서 성능 저하 및 유연성 부족으로 이어질 수 있다. AMD는 이러한 병목 현상을 극복하기 위해 프리필과 디코드를 각각 최적화된 GPU 풀로 분리하고, 이를 독립적으로 운영할 수 있는 기반을 마련했다.

무대에 오른 크리스 라이트(Chris Wright) 레드햇 CTO는 “AI 분야는 이제 개방(open)으로 전환되고 있다"라며, "오픈소스 소프트웨어뿐 아니라 오픈 LLM이 기존 폐쇄형 모델과 동등하거나 더 나은 수준의 추론 성능을 내고 있다”고 평가했다.

특히 레드햇과 AMD가 협업한 LLM-D는 프리필과 디코드를 분산하는 기술을 기반으로 구축됐으며, 쿠버네티스(Kubernetes)와의 통합을 통해 대규모 AI 요청에 유연하게 대응할 수 있도록 설계됐다.

오픈시프트(OpenShift) AI도 양사 협력의 핵심 축이다. LLM-D와 VLL-M 등 오픈 모델에 기반한 고성능 추론을 간편하게 배포할 수 있도록 지원하며, AMD 인스팅트(Instinct) GPU와의 호환성도 강화했다.

라이트 CTO는 “오픈시프트 AI는 단지 예측 모델뿐만 아니라 생성형 AI도 아우르는 플랫폼으로, AMD와 함께 고객의 투자 효율을 극대화하고 있다”고 설명했다.

양사는 기업들이 AI 시범 사업(PoC)을 넘어 실제 업무에 생성형 AI를 적용할 수 있도록, 데이터 통합·보안·워크플로우를 포함한 엔드투엔드 솔루션 구축에도 집중하고 있다.

보파나 수석 부사장은 “이제 우리는 추론은 물론, ‘이해하고 생각하는’ AI 에이전트 시대에 대비하고 있다”며 “AMD와 레드햇은 이 전환을 위한 가장 개방적이고 실용적인 경로를 제공하고 있다”고 강조했다.

새너제이(미국)=김문기 기자
moon@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널