게임

크래프톤, AI 모델 브랜드 '라온' 출범…모델 4종 오픈소스 공개

이학범 기자
크래프톤 자체 인공지능 모델 브랜드 '라온' 로고. [사진=크래프톤]
크래프톤 자체 인공지능 모델 브랜드 '라온' 로고. [사진=크래프톤]

[디지털데일리 이학범기자] 크래프톤이 자체 인공지능(AI) 모델 브랜드 라온(Raon)을 공개하고 음성 및 시각 영역을 아우르는 주요 모델 4종을 오픈소스로 풀었다. 연구 성과 소개를 넘어 모델 설계와 학습, 평가까지 자체 수행 가능한 기반 기술을 강조하며 AI 경쟁력 강화에 속도를 내는 모습이다.

크래프톤은 AI 모델 브랜드 라온을 출범하고 음성 지원 대규모언어모델(LLM), 실시간 음성 대화 모델, 텍스트-음성 변환(TTS) 모델, 비전 인코더를 글로벌 플랫폼 허깅페이스에 오픈소스로 공개했다고 2일 밝혔다.

라온은 즐거움을 뜻하는 순우리말에서 따왔다. 영문 표기는 크래프톤 사명 일부를 반영해 결정됐다. AI를 통해 게임의 본질적인 재미를 확장하겠다는 방향성을 브랜드에 담았다는 설명이다.

이번에 공개한 모델은 라온-스피치, 라온-스피치챗, 라온-오픈TTS, 라온-비전인코더총 4종이다. 크래프톤은 이번 공개를 통해 음성과 시각 정보를 함께 다루는 멀티모달 AI 역량을 바탕으로 파운데이션 모델 개발 전 과정을 자체적으로 수행할 수 있음을 보여줬다고 강조했다.

크래프톤이 공개한 라온 주요 모델 4종 설명. [사진=크래프톤]
크래프톤이 공개한 라온 주요 모델 4종 설명. [사진=크래프톤]

라온-스피치는 텍스트 중심 언어 모델을 음성까지 처리할 수 있도록 확장한 모델이다. 90억 규모 파라미터를 바탕으로 음성 이해와 생성 기능을 함께 지원한다.

회사 측은 100억 이하급 공개 음성 언어 모델 가운데 한국어와 영어 성능에서 글로벌 1위 성능을 기록했다고 설명했다. 음성 텍스트 변환, 텍스트 음성 변환, 음성 기반 질의응답 등 7개 핵심 과제와 40개 벤치마크를 종합 평가한 결과다.

라온-스피치챗은 실시간 양방향 음성 대화에 초점을 맞춘 모델로 국내 첫 실시간 양방향 음성 모델이다. 이용자와 AI가 대화 중 자연스럽게 끼어들고 반응할 수 있는 양방향 통신(Full-duplex) 기술이 적용됐다.

관련 벤치마크 3종에서는 맞장구, 끼어들기 대응, 응답 지연 시간 등 13개 항목 평균 순위 기준으로 글로벌 최상위권 성능을 기록했다.

라온-오픈TTS는 공개 가능한 음성 데이터만으로 학습한 텍스트-음성 변환 모델이다. 기존에 활용이 쉽지 않았던 일부 데이터는 직접 수집하고 정제해 공개됐다. 학습 데이터 전체도 공개돼 동일 조건에서 재현 가능한 연구 환경을 마련했다.

크래프톤은 사람 평가 방식의 블라인드 비교에서 비공개 데이터 기반 글로벌 연구용 TTS 모델과 비교해 최고 수준의 결과를 확인했다고 전했다.

라온-비전인코더는 이미지를 AI가 이해할 수 있는 형태의 정보로 바꾸는 모델이다. 언어 모델과 결합하면 시각 정보를 함께 처리할 수 있다. 공개 데이터만 활용해 사전 학습 모델 없이 처음부터 자체 학습한 것이 특징이다.

크래프톤은 일부 시각 인식 과제에서 구글의 대표 비전인코더 모델(SigLIP2)보다 높은 성능을 기록했고 다른 과제에서도 90% 이상 수준의 성능을 냈다고 설명했다. 이 기술은 향후 독자 AI 파운데이션 모델 구축에도 활용될 예정이다.

이강욱 크래프톤 최고AI책임자(CAIO)는 "이번 라온 모델 시리즈 공개는 AI 기술 역량을 축적해 나가는 과정에서 중요한 이정표"라며 "대규모 학습 데이터와 핵심 모델을 오픈소스로 공유해 연구자와 개발자가 자유롭게 활용할 수 있도록 하고 멀티모달 기술 발전과 국내 AI 생태계 성장에도 기여하길 기대한다"고 전했다.

이학범 기자
ethic95@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널