래블업, 쿠버콘 2025서 쿠버네티스 통합 AI 인프라 기술 공개
[디지털데일리 이나연 기자] 인공지능(AI) 인프라 전문 기업 래블업은 오는 10~13일(현지시간) 열리는 쿠버콘+클라우드 네이티브콘 노스 아메리카 2025에 실버 스폰서로 참가한다고 8일 밝혔다.
래블업은 쿠버네티스 10주년을 기념해 미국 애틀란타에서 개최되는 이번 행사에서 독자 개발한 그래픽처리장치(GPU) 오케스트레이터 소코반과 쿠버네티스의 통합 기술을 선보인다.
래블업의 '백엔드닷에이아이(Backend.AI)'는 다양한 기업과 연구기관이 사용하는 클라우드 네이티브 기반 AI 인프라 운영 플랫폼이다. 플랫폼의 핵심에는 GPU 오케스트레이션 엔진 소코반이 있다. 이는 수천 개의 GPU 노드에서 워크로드 스케줄링과 자원 관리를 수행하는 고성능 기술로 평가받는다.
소코반은 다양한 가속기 지원, 실시간 장애 복구, 자원 자동 할당 등 AI 워크로드 운영에 필요한 기능을 통합 제공해, 대규모 인프라 환경에서도 안정적 운영을 가능하게 한다.
래블업은 이번 행사에서 Backend.AI와 쿠버네티스의 통합 기술을 중심으로, AI 인프라 운영 효율성을 극대화하는 방향을 제시한다.
Backend.AI의 쿠버네티스 네이티브 확장은 GPU 기반 AI 워크로드를 보다 유연하게 관리할 수 있도록 돕고, 클라우드 네이티브 환경에서도 Backend.AI의 GPU 최적화 기능을 그대로 활용할 수 있게 한다. 이를 통해 데이터 과학자와 엔지니어는 인프라 설정에 대한 부담 없이 모델 개발에 집중할 수 있다. 시스템 관리자는 대규모 배포 환경의 모니터링 및 제어 효율을 높인다.
래블업은 다양한 기관의 GPU 인프라 운영을 Backend.AI로 지원하고 있다.
최근에는 국가 파운데이션 모델 개발 프로젝트에서 500장 규모의 엔비디아 HGX B200 GPU를 운영하며 Backend.AI와 소코반의 안정성과 확장성을 검증했다. 래블업은 이 과정에서 자동 복구 및 워크로드 재배치 기능을 통해 장애 발생 시에도 운영 중단 시간을 최소화하는 등, 대규모 GPU 클러스터 운영의 신뢰성을 확보했다.
김준기 래블업 최고기술책임자(CTO)는 “대규모 GPU 환경에서는 장애가 불가피하지만, Backend.AI와 소코반을 통해 중단 시간을 최소화하고 시스템 안정성을 높이고 있다”고 밝혔다.
이어 “쿠버네티스 통합을 통해 AI 워크로드의 유연성과 생태계 확장성을 결합, 클라우드 네이티브 환경에서도 안정적인 인프라 운영이 가능할 것”이라며 “AI 인프라 산업은 이제 에너지와 국가 인프라 차원의 접근이 필요한 시점”이라고 강조했다.
포스코, 내년도 조직 개편 '대수술'…'장인화 체제 2단계' 본격 가동
2025-12-05 19:25:48배달의민족·업비트 멈췄다…클라우드플레어, 2주 만에 또 장애
2025-12-05 19:17:39대규모 정보유출로 코너 몰린 쿠팡…'엄정 제재' 일촉즉발
2025-12-05 19:09:25신한은행, 2029년까지 남양주에 AI 데이터센터 건립 추진
2025-12-05 17:59:39