반도체

박경 SK하이닉스 "AI 추론, 커스텀 HBM·분리형 솔루션이 답" [SK AI 서밋 25]

고성현 기자
4일 'SK AI 서밋 2025' 세션에서 발표를 진행하는 박경 SK하이닉스 AI인프라 비즈인사이트 총괄 담당
4일 'SK AI 서밋 2025' 세션에서 발표를 진행하는 박경 SK하이닉스 AI인프라 비즈인사이트 총괄 담당

[디지털데일리 고성현 기자] SK하이닉스가 인공지능(AI) 인프라 투자 확대에 맞춘 메모리 솔루션 확대에 나선다. 커스텀 고대역폭메모리(HBM)를 기반으로 주문형반도체(ASIC) 진영의 니즈를 충족하는 한편, 향후 도입될 차세대 시스템에 맞춰 최적화한 분리·계층형 메모리(Disaggregated Memory) 솔루션 공급에 집중할 계획이다.

박경 SK하이닉스 AI인프라 비즈인사이트 총괄 담당은 4일 코엑스에서 열린 'SK AI 서밋 2025' 둘쨰날 세션에서 "AI는 인지형에서 생성형을 거쳐 에이전틱, 피지컬 AI로 발전하고 있다"며 "현재 사업화로 연결되는 에이전틱 AI가 다가오면서 속도, 양적인 발전이 함께 이뤄지는 추세"라고 설명했다.

박경 담당은 "또 5대 클라우드서비스사업자(CSP) 업체의 내부 데이터 기준 매출 대비 설비투자(CAPEX) 비중을 보면 올해부터 20%를 넘어가는 상황"이라며 "이러한 패턴 아래에서 핵심 열쇠인 반도체도 의미 있는 성장을 이뤄가는 중"이라고 전했다.

아울러 AI 인프라 투자 발전으로 반도체 시장의 폭발적인 성장이 이어질 것으로 내다봤다. 막대한 변화가 발빠르게 일어나면서 요구되는 반도체 수량이 늘고 있지만, 이를 대응할 공급 업체들의 생산량이 부족해지면서 탄력적인 모습을 보이고 있다는 의미다. 특히 대규모 투자를 요하는 메모리에 대한 공급 부족이 심화될 것으로도 봤다.

박 담당은 "한 조사업체의 지표를 보면 2030년에 필요한 메모리가 웨이퍼 기준 4100만장 정도지만 메모리는 약 3000만장 수준에 그친다"며 "이러한 부족(Shortage)이 발생하면서 가격 위주였던 범용 메모리보다 강력한 수요를 바탕으로 성장하는 여건이 만들어지지 않을까 기대하는 것"이라고 했다.

초거대언어모델(LLM)의 학습 중심이었던 과거와 달리, 추론(Inference) 기반의 서비스 확대로 메모리 업체에 대한 요구가 늘어날 수 있다는 관측도 내놨다. 멀티 모달, 피지컬 AI 등 모델 고도화로 메모리 성능의 추론 성능을 높이면서도 모델 API 비용을 줄이는 요구가 늘어난 영향이다. 또 추론이 학습 대비 예측가능성이 떨어지는 만큼, 이러한 변동성에 대응하는 것이 중요하다는 분석도 내놨다.

박 담당은 "학습 분야에서는 메모리 용량을 결정하는 것이 (AI 모델의) 매개변수 크기였다. 또 어느정도 워크로드 과정이 안정화돼 있어 메모리 패턴도 예측 가능했다"며 "반면 추론은 파라미터 크기는 정해져 있으나, 추론 처리를 맡기는 컨텍스트나 사용자 수에 따라 KV 캐시(Cache) 변동성이 커지면서 예측이 불가능해진 것"이라고 운을 뗐다.

그러면서 "이 문제를 해결하려면 HBM을 무한대로 쓰는 것이 가장 좋은 방법이지만, 비싼 가격과 용량 확장의 물리적 한계로 사실상 가능한 대안이 아니다"라며 "이로 인해 메모리를 계층화하거나 성능의 분리·공유를 담당하는 별도 하드웨어 콘셉트 등이 나오고 있는 것"이라고 덧붙였다.

이에 따라 현재 SK하이닉스가 집중하는 커스텀 HBM과 같은 솔루션들이 추론 영역에 중요한 역할을 할 것으로 봤다. 종전 입출력 라우팅(I/O Routing) 역할만 하던 베이스 다이에 KV 캐시를 대응하는 S램이나 니어메모리컴퓨트 기반 가속기를 탑재해 대응한다는 뜻이다.

그는 "엔비디아의 GPU 고도화와 더불어 ASIC 업체 등 각각의 고객별로 대응하는 것을 전제로 하기에 (커스텀 HBM의 확대는) 거스르기 어려운 방향이라고 판단하고 있다"고 강조했다.

이와 함께 시스템 아키텍처의 변화로 메모리 활용 방식도 변화할 것으로 봤다. CPU, GPU 등으로 분리돼 있는 D램이 한 워크로드 안에서 최적화된 역할을 맡아 기능하는 분리·계층형 방식이 대표 사례다. 비교적 활용도가 낮던 CPU의 메모리를 적합한 곳에 맞춰 사용량을 늘리는 등 일종의 메모리 풀(Pool)로 활용할 수 있다는 뜻으로 해석된다.

엔비디아가 최근 공개한 루빈 아키텍처 기반 플랫폼이 대표적 사례다. 엔비디아는 루빈(Rubin) 기반 시스템을 주력 GPU인 루빈 GPU와 함께 '베라 CPU', '루빈 CPX'를 함께 탑재키로 했다. 이중 루빈 CPX는 초기 KV 캐시를 만드는 프리필(Prefill) 단계에 최적화된 GPU로 HBM이 아닌 GDDR7 기반 D램을 탑재해 이를 전담한다. 이후 과정인 디코드는 HBM4가 탑재된 루빈 GPU가 처리하고, 워크로드 스케줄링 등 호스트 역할은 LPDDR5X를 탑재한 베라 CPU가 진행하는 식으로 이뤄진다.

박 담당은 "엔비디아 루빈은 기존의 천편일률적인 메모리 계층화가 깨지고 각 기능별로 메모리가 조합되는 시대를 여는 중요한 변화이자 기회"라며 "따라서 메모리업체도 단순히 용량 기반으로 판매하는 게 아니라 고객에 맞춘 조합을 제시해야 하는 것"이라고 강조했다.

그러면서 박 담당은 "메모리는 소품종 대량 생산의 원가 경쟁력을 중요시했던 시대를 지나 고객의 가치를 창조하고 니즈를 해결하는 방향으로 바뀔 것"이라며 "SK하이닉스가 '메모리 솔루션 제공자'에서 창조자(Creator) 역할을 해야한다고 주장한 것 역시 이와 같은 일환"이라고 말했다.

고성현 기자
naretss@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널