솔루션

[인터뷰] AI를 위한 인프라부터 운영·관리까지··· 효성인포메이션 DX센터 시즌3

이종현 기자
효성인포메이션시스템 DX센터
효성인포메이션시스템 DX센터

[디지털데일리 이종현기자] 2022년 말부터 경기침체를 우려하는 목소리가 나오기 시작했다. 위기에 대비해 기업들의 정보기술(IT) 투자도 크게 줄어들었다. 삼성전자, SK하이닉스와 같은 반도체 기업의 실적 악화의 주된 요인이다.

하지만 ‘챗GPT’의 등장으로 분위기가 다소 반전됐다. 인공지능(AI)이 산업계 모든 이슈를 집어삼키면서, AI 연구를 위한 고성능 컴퓨팅(HPC) 수요는 그 어느 때보다 뜨겁다. 그래픽처리장치(GPU)의 경우 수요가 공급을 초과했다. 올해 출시한 최신 GPU ‘H100’의 경우 주문을 하더라도 전달까지 상당한 시간이 소요돼 이전 세대인 2020년 GPU ‘A100’을 신규 주문하는 실정이다.

이처럼 AI를 위한 HPC를 구비하는 것이 쉽지 않은 상황에서 기업들의 고심도 깊어지고 있다. 자신의 비즈니스에 어느 만큼의 GPU가 필요한지, 또 어떻게 구성하는 것이 효율적인지 등에 대한 정보가 부족하기 때문이다. 필요 이상으로 구매하기에는 이전 세대인 A100 칩만 하더라도 1000만원을 넘는 데다 배송까지 수개월이 걸리기 때문에 선택하기가 쉽지 않다.

정보통신기술(ICT) 통합 서비스 기업 효성인포메이션시스템(이하 효성인포메이션)은 이런 기업들을 대상으로 ‘디지털전환(DX) 센터’를 운영하고 있다. 시즌제로 운영되는 DX센터는 변하는 트렌드에 따라 새로운 슬로건으로 재단장한다. 올해는 ‘HPC 업무를 위한 통합 AI 플랫폼’을 테마로 삼았다.

◆DX센터 시즌3, AI 프로젝트를 위한 도우미 역할

DX센터는 데이터 기반의(Data Driven) 디지털 전환을 체험할 수 있는 공간을 마련하겠다는 취지에서 2019년 처음 문을 열었다. 시즌1에서는 소프트웨어 정의 데이터센터(SDDC)와 디지털 코어 현대화를 주제로 삼았고, 2020년에는 데이터레이크(Data Lake) 및 데이터운영(DataOps) 최적화 전략을 제시했다.

2023년 시즌3은 GPU 서버와 고성능 병렬 파일 스토리지, 컨테이너 기반 GPU 분할 가상화 및 관리나 AI, 머신러닝(ML)을 위한 소프트웨어(SW)까지 함께 제공하는 통합 AI 플랫폼을 주제로 한다.

김형섭 효성인포메이션 매니저는 “AI 플랫폼이라고 하면 정확히 뭘 의미하는지 모르겠다고 하는 분들이 있는데, 저희가 말하는 것은 AI 기반 비즈니스를 하기 위한 환경을 의미한다. 여기에는 인프라와 SW 등이 모두 녹아들어 있다”고 설명했다.

그는 DX센터를 데이터가 추상적인 프리젠테이션이 아닌, 비즈니스 인사이트로 어떻게 전환되는지 보여주는 장소라고 소개했다. 2019년 개소 후 5년 동안 약 100여개 기업이 DX센터를 찾았다.

DX센터에서는 정책 기반 자원관리, 사용자 지향 AI 모델 개발, AI 인프라 성능 최적화와 같은 시나리오 시연이 이뤄진다. 찾는 기업의 비즈니스가 어떤 식으로 변할 수 있는지에 대한 가이드라인을 제시한다고도 볼 수 있다. 여기에는 AI 플랫폼을 비롯해 사물인터넷(IoT), 개발운영(DevOps), 클라우드 인프라 등이 포함돼 있다.

효성인포메이션시스템 DX센터
효성인포메이션시스템 DX센터

◆인프라부터 AI Ops까지, ‘올인원’ 제공

김 매니저는 “AI 업무의 프로세스는 데이터베이스(DB)나 에지(Edge) 등 데이터 소스로부터 어떻게 데이터를 추출·분류할지에서부터 시작한다. 이후 데이터 정제 및 AI 분석을 위한 데이터 저장, AI 모델 개발과 운영 서비스까지가 AI운영(AI Ops)이라고 지칭되는 흐름이다. 이런 과정에 대한 설계를 소홀히 한다면 난관에 부닥치기 쉽다”고 말했다.

AI 도입 이후 겪는 대표적인 문제는 자원관리나 AI 모델 개발의 어려움, 성능 최적화 이슈 등이다. 기업이 AI 비즈니스를 위해 인프라를 도입했다면 이 자원을 직원들에게 효율적으로 할당하고 관리할 수 있어야 한다. 그러지 못한다면 자원이 낭비되거나 부족해질 수 있다. 대규모언어모델(LLM)과 같은 고성능을 요구하는 경우 최적화도 요구된다.

이를 위해 효성인포메이션이 제시하는 것은 AI를 위한 HPC와 초고성능 스토리지(HCSF), GPU와 스토리지간 직접 연결을 위한 GPU다이렉트 기술, 복수의 GPU를 연결해서 연산 성능을 높이는 NV링크와 같은 인프라단 기술, 그리고 정책기반 자원관리와 AI 모델 개발을 돕는 ‘백앤드닷AI(Back.AI)’ 등이다.

그는 “DX센터를 찾는 고객 중에서는 ‘사용자가 늘어나니 배포에 어려움이 있다’는 질문을 많이들 한다. 한정된 인프라를 보다 효과적으로 관리할지는 매우 중요한 문제다. 백엔드닷AI는 GPU나 중앙처리장치(CPU) 코어, 메모리, 저장공간 등을 사용할 리소스 그룹을 생성해 사용자나 프로젝트에 따라 사용할 수 있도록 설정할 수 있다. 사용이 끝났다면 자원을 회수하는 기능도 제공한다”고 밝혔다.

GPU 분할 가상화 기술을 통해 1개 GPU의 자원을 쪼개서 여러 사용자가 함께 사용할 수 있다. 교육 및 추론 워크로드를 위해 단일 GPU를 공유하거나, 대규모 워크로드를 위한 다중 GPU를 할당하는 등 사용 목적에 따라 유연하게 조정할 수 있다. 세션 및 자원에 대한 모니터링도 가능하다.

김형섭 효성인포메이션 매니저
김형섭 효성인포메이션 매니저

김 매니저는 “AI 비즈니스를 고민하는 기업들은 정말로 각양각색이다. 나도 놀랄 만큼 잘 아는 기업이 있는가 하면, 정말 아무런 지식도 없이 처음부터 시작하려는 곳도 있다”며 “중요한 것은 AI를 통해 어떤 문제를 해결하려고 하는 것인지 목표를 명확하게 수립하고, 단계적으로 접근하는 것”이라고 강조했다.

이어서 그는 경기침체로 인한 투자 긴축과 AI를 위한 투자 확장이 동시에 이뤄지는 현재 철저한 준비와 효율적인 접근의 필요성을 당부하며 “챗GPT가 붐을 일으키면서 AI에 대한 관심이 정말로 뜨겁다. 꼭 챗GPT가 아니더라도 정말 많은, 다양한 AI 기술들이 등장하리라 예상된다. AI를 어떻게 활용하느냐에 따라 비즈니스의 성패가 좌우될 수도 있다. 만약 AI에 대한 고민이 있다면 언제든지 DX센터를 찾아 달라”고 전했다.

이종현 기자
bell@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널