클라우드뉴스

[클라우드임팩트2022] KT, “세상에 없던 GPU 클라우드 출시”

백지영
[디지털데일리 백지영기자] KT가 기존 퍼블릭 클라우드 서비스에서의 한계를 극복한 GPU 클라우드 서비스를 출시했다. 현재 베타서비스를 제공 중이며, 4~5월 경엔 상용 서비스가 가능할 전망이다. 중장기적으로는 AI반도체 분야에서의 기술적 자립을 위해 2023년엔 전용 인공지능(AI) 칩 제작 계획도 세웠다.

24일 디지털데일리 웨비나 플랫폼 ‘DD튜브’에서 개최된 ‘클라우드 임팩트 2022’ 버추얼 컨퍼런스 마지막날 행사에서 KT 클라우드 이태경 팀장은 지난해 12월 선보인 ‘하이퍼스케일 AI 컴퓨팅, 이하 HAC)’ 서비스의 차별화를 강조해 참석자들의 이목을 끌었다.

KT 클라우드의 ‘HAC’는 클라우드 기반으로 AI 학습용 인프라를 구축할 수 있는 서비스다. AI 서비스를 만들기 위해선 GPU(그래픽 프로세서 유닛)가 필요한데, 이를 클라우드 방식으로 필요할 때마다 쉽게 빌려쓰고 반납이 가능하다. 특히 기존 클라우드 서비스의 한계를 기술적으로 극복했다는 점을 강조했다.

최근 AI 모델이 대형화되면서 이를 뒷받침할 수 있는 GPU 인프라의 역할은 더욱 커지고 있다. 대표적인 AI 언어모델인 GPT의 경우, GPT-2 대비 GPT-3의 매개 변수가 약 100배 이상 증가했다. 많은 국내 대기업들도 자신만의 초거대 AI 기술 개발 경쟁을 위해 인프라 투자를 가속화하고 있는 상황이다.

현재 AI를 가능케 하는 GPU 인프라는 크게 기업이 직접 구축하는 온프레미스 방식과 클라우드 방식으로 이용이 가능하다. 온프레미스 방식의 가장 큰 단점은 시간이 너무 오래 걸린다는 점이다. 엔비디아의 DGX나 슈퍼포드를 구축하는 경우. 최소 6개월 이상의 딜리버리 시간과 이후에도 각종 환경 구성의 시간을 필요로 해 즉시 사용은 불가능하다.

또, GPU 인프라는 고전력을 필요로 하고, 최근 수도권 데이터센터(IDC)의 수요 증가에 따라 상면을 확보하는 것도 쉽지 않다. 직접 구축할 경우 자원의 활용율도 높지 않다. 제품 측면에선 인텔이나 AMD, 그래프코어 등이 출시돼 있지만, 이미 개발자들이 익숙해져 있는 쿠다 플랫폼 때문에 엔비디아로의 종속성이 큰 편이다.

이와 함께 주요 클라우드 서비스 업체(CSP)들이 GPU 인스턴스를 제공하고 있으나 이 역시 한계가 명확하다. 우선 기존 클라우드 사업자들이 서비스하는 방식은 가상머신(VM)과 GPU를 결합시키는, 즉 GPU를 특정 VM에 종속시키는 ‘패스-쓰루(Pass-through)’ 방식으로 제공해 대규모 클러스터링이 어렵다는 것이 약점으로 지적된다.

이 팀장은 “CSP들이 서비스하는 인프라 사양들을 살펴보면, 제공될 수 있는 최대 스펙은 물리 서버 내에 구성할 수 있는 최대 규모의 GPU와 동일하다”며 “때문에 AI 모델이 커지면서 더 큰 컴퓨팅 파워가 필요한 경우엔 현재 이들이 제공하는 상품으로는 충분히 단시간에 학습을 시키기 어렵다라는 것이 가장 큰 문제”라고 지적했다.

GPU 자원의 비효율적인 활용성도 기존 클라우드 방식 서비스의 한계로 지적된다. 패스-쓰루 방식으로 GPU를 할당받아 사용할 때 GPU가 항상 쓰이고 있는 것은 아니기 때문이다. 그는 “개발을 할 때에는 GPU를 거의 사용하지 않고, 통상 개발자들은 주말이나 평일 야간에 학습을 돌려놓고 퇴근하는 것이 일반적인 패턴”이라며 “그렇다 보니 실제 통계적으로는 이런 유휴 영역이 생길 수밖에 없다”고 말했다.

그는 “실제 KT에서도 상당한 규모의 GPU를 구매해 운영을 하고 있는데, 특정 장비들을 모니터링 해보면 역시 GPU 활용율이 평균적으로 10%에서 20%를 넘기 힘든 매우 낮은 수준으로 확인된다”며 “이런 상황은 클라우드 서비스를 제공하는 공급 기업 입장에서는 구축 비용에 대한 부담으로 이어진다”고 역설했다.

코드 수정의 불편함도 약점이다. GPU가 AI 학습에 쓰여질 때는 통상 여러개의 GPU를 활용해야 하는 상황이 생긴다. 이때 개발자들은 여러개 GPU에 연산 분할과 입력 데이터에 대한 분배, 결과 취합, GPU 간 데이터 통신, 성능 최적화를 위한 세부적인 튜닝 작업들이 필요하다. AI 모델이 커지면서 복잡도도 높아져 개발자들의 부담은 커지는 상황이다.

이밖에 서비스 제공의 확장성도 쉽지 않다. 모델링 단계에서 본격적인 학습을 진행할 경우, 좀 더 많은 GPU 투입이 필요하다. 이 팀장은 “현재 클라우드 방식에선 작게 만든 GPU VM을 삭제하고, 또 필요로 하는 시점에 좀 더 큰 GPU VM을 다시 만들어 데이터를 올리고 필요한 환경 구성을 반복해야 되는 불편함이 발생한다”고 설명했다.

그는 “KT 클라우드가 출시한 HAC은 지난 2020년부터 공급자와 사용자 입장에서 느껴지는 여러 한계점을 개선을 고민하면서 나온 결과물”이라며 “이를 위해 ‘모레(Moreh)’라고 하는 국내 기업과 전력적인 협업을 통해 작년 12월에 HAC을 출시했다”고 말했다.

HAC에선 우선 대규모 GPU 자원 활용이 가능하다. 수십개~수천개까지의 GPU를 한 번에 클러스터링해서 지원할 수 있는 기능이 구현돼 이론적으로는 고객이 원하는 시점에 원하는 규모만큼 GPU를 제공할 수 있는 수준으로 구현이 됐다.

VM에서 연산을 실행할 때도 그 시점에 GPU를 동적으로 할당하고, 연산이 끝나면 할당된 GPU 회구가 가능한 구조로 바꿔 실제 사용량 만큼만 과금할 수 있는 것도 특징이다. 그는 “현재 분 단위 과금 계획을 갖고 있다”고 말했다.

프로그래밍 호환성도 개선됐다. HAC에서는 기존 싱글 GPU 기반의 코드를 그대로 쓰더라도 내부에 적용된 기능들을 통해 쉽게 확장이 가능하다. 개발의 유연성 및 연속성에 대한 지원이 가능해졌다. 김 팀장은 “실제 콘솔을 보면, AI 가속기 사양 변경이라는 메뉴를 통해 특정 VM에 대한 GPU 수치를 언제든 새롭게 정의할 수 있는 기능을 확인할 수 있다”고 설명했다.

자원을 아예 사용하지 않는 경우에도 통상 클라우드 서비스에선 허용하지 않는 ‘VM 정지’ 기능을 허용해 요금 부담은 거의 하지 않으면서 데이터나 환경에 대해서 그대로 보존이 가능하다. 추가로 인프라가 변경되더라도 HAC에서 제공하는 ‘체크포인트’라는 기능을 활용하면 기존에 학습한 결과를 이어서 다시 학습할 수 있다는 장점도 있다.

이 팀장은 이것이 가능한 이유로 하드웨어 및 소프트웨어 개선을 들었다. HAC에선 프론트노드와 백노드로 분리를 시켜, 고객 VM은 프론트노드에서 생성이 되고 GPU 클러스터는 백노드에서 하나의 풀로 관리가 되는 구조다. 고객 요청 시 필요한 만큼의 GPU를 VM에 할당, 회수하는 동적인 관리 구조를 갖췄다.

소프트웨어 측면에서도 '모레'와의 협력을 통해 AI 프레임워크에 대한 네이티브 지원이 가능한 쿠다를 대체할 소프트웨어 스택을 직접 개발했다. 파이토치나 텐서플로우 등의 프레임워크가 정상적으로 돌아가도록 100% 호환이 가능하다. 현재 HAC 서비스는 AMD GPU를 기반으로 구현됐다.

이 탐장은 “HAC 서비스는 KT 클라우드에서 다져온 역량과, 국내에서 독자적으로 기술 개발을 한 파트너사(모레)의 소프트웨어 역량을 합쳐 특정 벤더 종속성을 탈피할 수 있는 계기를 마련했다는데 의의가 있다”며 “또 GPU 대규모 클러스터링이 클라우드 방식으로 실제 제공될 수 있도록 내부족으로 많은 검증 절차를 거쳤다”고 강조했다.

그러면서 “현재도 부족한 점들을 보완하기 위한 노력을 진행하고 있다”며 “가령 현재 시점에선 약 30종의 AI 모델을 지원하고 있는데, 이를 약 50여종으로 순차적으로 확대할 것”이라고 말했다. AI 프레임워크도 현재 파이토치만 지원하지만, 하반기부터는 텐서플로우도 제공할 예정이다. 현재 본격적인 상용 서비스를 위한 대규모 GPU 팜을 구축 중이다.

그는 또 “이 과정에서 현재 적용된 AMD의 컨슈머용 GPU 대신 상용 서비스에선 가장 최신의 데이터센터용 GPU를 적용할 예정”이라며 “중장기적으로는 양산 벤더의 GPU 제품이 아니라 AI 반도체 분야에서도 기술적인 자립이 가능하도록 별도의 국내 팹리스 파트너를 선정해 전략적인 협력을 진행하고 있는 과정”이라고 강조했다.
백지영
jyp@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널