KT가 19개월 준비해 ‘GPU 클라우드 서비스’ 내놓은 이유

2021.12.28 16:36:47 / 백지영 jyp@ddaily.co.kr

관련기사
방역패스 첫날 발생한 시스템 장애…과연 클라우드 잘못일까
“네트워크부터 클라우드까지”…KT, 정부 코로나19 대응 적극 지원

-국내기업 ‘모레’와 협력해 ‘하이퍼스케일 AI 컴퓨팅’ 출시
-내년 대규모 GPU 팜 구축 이어 2023년 AI 칩 개발 계획


[디지털데일리 백지영기자] KT가 1년 7개월이라는 준비기간을 거쳐 지난 10일 인공지능(AI) GPU를 클라우드 서비스로 편하게 빌려쓸 수 있는 ‘하이퍼스케일 AI 컴퓨팅(이하 HAC)’을 출시했다.

일반 개발자나 기업이 인공지능(AI) 인프라 구축·운영을 위해 값비싼 그래픽처리장치(GPU)를 구축하는 대신 대규모 GPU 클러스터링을 손쉽게 사용할 수 있도록 한 것이 목적이다.

현재 일부 퍼블릭 클라우드 업체들이 GPU 서비스를 제공 중이지만 대부분 최대 8장까지만 지원해 대규모 모델 연산에 활용이 어렵다는 단점이 있다.

특히 KT는 기존의 패스쓰루(Pass-through) 방식의 GPU VM을 탈피하고 실제 사용하는 시간 동안만 요금이 부과되는 종량제 방식으로 제공해 진정한 클라우드의 혜택을 누리게 하겠다는 설명이다.

이같은 방식은 현재 아마존웹서비스(AWS) 등에선 제공하지 않는 유일한 서비스라는 주장이다. KT는 내년 초대규모 GPU 팜(Farm)을 비롯해 2023년에는 전용 AI 칩까지 제공하겠다는 포부를 밝혔다.

김주성 KT 클라우드·IDC 사업추진담당 상무는 지난 27일 열린 KT 디지코 스터디에서 “이번에 출시한 HAC를 통해 특정 글로벌 벤더의 GPU 독과점 이슈와 AI 서비스 개발의 어려움을 효과적으로 개선할 수 있을 것”이라고 강조했다.

우산 KT HAC의 가장 큰 특징은 대규모의 GPU 클러스터를 가상화해 사용자가 연산을 실행할 때 클러스터 내의 GPU 자원을 동적으로 할당하는 서비스라는 점이다. 기존의 일반적인 클라우드 GPU 서버는 GPU 실물 카드를 가상머신(VM) 귀속하는 할당 방식이다.

사용하지 않을 때는 서버를 삭제해야 요금이 부과되지 않는다는 단점이 있다. 만약 다른 사용자들이 자원 풀 내 모든 GPU 수량만큼 GPU 서버를 생성했을 경우, 현재 GPU를 실행하고 있지 않더라도 GPU 자원이 이미 점유돼 사용량 대비 과다한 요금을 지불할 수 밖에 없다.

하지만 KT HAC는 동적 할당이 적용돼 사용자가 실제 연산을 실행할 때만 온디맨드로 가상 GPU를 할당하는 방식이다. 실제 GPU 사용량에 근거해 합리적인 요금으로 서비스 이용 가능한 것이 특징이다.

이를 위해 KT는 국내 AI인프라 기업인 ‘모레(Moreh)’와 협력해 클라우드 환경에 적합한 하드웨어 및 소프트웨어 스택을 재설계했다.

특히 하드웨어 스택의 경우 프론트 노드와 백노드를 분리했다. 프론드 노드에는 오픈스택 기반의 컴퓨팅 노드를 구성, 고객 CPU VM을 제공하는 한편 엔비디아 A100 노드를 일부 탑재해 예외처리 및 호환성을 보장했다.

또한 백노드에는 가성비가 좋은 AMD GPU를 장착하고 이를 클러스터 구조로 만들었다. 현재는 최대 제공 가능한 GPU가 100여장이지만 내년에는 이를 더욱 확장해 초거대 클러스터로 만들 예정이다.

프론트노드와 백노드 간에는 200Gbps 멜라녹스 인피니밴드 스위치를 장착해 초고속 통신이 가능하게 했다. 프론트노드의 VM에서 필요시마다 백엔드의 GPU를 호출해 사용하고 반납하는 구조다. 또, 병렬 분산 파일시스템인 러스트 노드도 탑재해 대용량의 저장을 가능케 했다.

이와 함께 GPU를 확장할 경우에도 재설계 및 코드 수정이 필요 없도록 했다. 현재는 AI 모델 개발 과정에서 GPU 자원 규모를 변경해야 할 경우, GPU VM 삭제 후 재생성해 다시 데이터를 업로드하는 번거로운 환경 세팅을 반복해야 하는 불편함이 있었다.

하지만 KT HAC의 경우 할당 받은 자원의 규모를 사용자의 수요에 따라 VM 종료 및 재생성 없이 탄력적으로 변경이 가능하다.

이밖에도 GPU의 모델에 따른 종속성을 최소화하고 기존 코드의 변경 없이 모델을 개발할 수 있는 환경을 지원한다. 가장 널리 쓰이는 41종의 모델을 순차 제공할 예정이다. 내년엔 파이토치와 텐서플로를 추가한다.

김 상무는 “HAC는 KT가 1년 7개월만에 작심하고 만든 서비스로 완전히 차별화된 시도를 통해 전세계에 유일한 GPU 클라우드 종량제 서비스를 실현했다”며 “2023년까지의 개발 로드맵을 통해 AI 풀스택을 제공하는 클라우드 사업자가 될 것”이라고 강조했다.

한편 KT는 HAC를 내년 2월 28일까지 무료로 제공한다. 구체적인 가격 정책은 아직 공개되지 않았다.


네이버 뉴스스탠드에서 디지털데일리 뉴스를 만나보세요.
뉴스스탠드


  • IT언론의 새로운 대안-디지털데일리
    Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
 
  • 동영상
  • 포토뉴스
삼성전자, ‘더 프리스타일’ 시판…출고가 1… 삼성전자, ‘더 프리스타일’ 시판…출고가 1…
  • 삼성전자, ‘더 프리스타일’ 시판…출고가 1…
  • LG전자, “‘씽큐’ 체험해보세요”
  • LG전자, 2022년 에어컨 경쟁 ‘점화’
  • 삼성전자, ‘갤럭시 언팩’ 9일 개최…‘갤럭…