산업

LG AI연구원, 멀티모달 AI '엑사원 4.5' 공개…벤치마크 13개 지표서 오픈AI·구글 상회

옥송이 기자
엑사원 4.5 글로벌 동급 모델들과의 벤치마크 성능 비교 [사진=LG]
엑사원 4.5 글로벌 동급 모델들과의 벤치마크 성능 비교 [사진=LG]

[디지털데일리 옥송이기자] LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 인공지능(AI) 모델 '엑사원(EXAONE) 4.5'를 9일 발표했다.

엑사원 4.5는 LG AI연구원이 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 비전-언어 모델(VLM)이다. 이는 독자 AI 파운데이션 모델인 'K-엑사원'의 모달리티 확장을 위한 기술적 토대로, 향후 물리적 세계를 이해하고 판단하는 피지컬 인텔리전스로 발전시키는 것을 목표로 한다.

이번 모델은 계약서, 기술 도면, 재무제표 등 산업 현장의 복합 문서를 정확히 읽고 추론하는 능력이 강점이다. 시각 처리와 추론 성능을 평가하는 13개 지표 평균 점수에서 오픈AI 'GPT-5 미니', 앤트로픽 '클로드 소넷 4.5', 중국 알리바바 '큐웬3-VL'을 상회하는 성적을 거뒀다. 특히 코딩 성능 지표인 라이브코드벤치 v6에서는 81.4점을 기록하며 구글 '젬마 4'를 앞섰다.

효율성 측면에서도 330억개 파라미터(33B) 규모로 설계돼 'K-엑사원' 대비 크기를 7분의 1로 줄였으나, 자체 개발한 하이브리드 어텐션 구조 등을 통해 동등한 수준의 성능을 구현했다. 지원 언어는 한국어와 영어 외에 스페인어, 독일어, 일본어, 베트남어까지 확장됐다.

LG AI연구원은 연구와 교육 목적으로 '엑사원 4.5'를 글로벌 오픈소스 플랫폼 허깅페이스에 공개해 AI 생태계 확장에 나선다. 또한 한국의 역사와 문화적 맥락을 깊이 이해하는 AI로 발전시키기 위해 동북아역사재단 등 국내 기관들과 협업을 지속하고 있다.

이진식 LG AI연구원 엑사원랩장은 "엑사원 4.5는 LG AI가 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대로 진입했음을 보여주는 모델"이라며 "음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다"고 말했다.

김명신 LG AI연구원 신뢰안전사무국 총괄은 "엑사원은 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 풍부한 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것"이라고 강조했다.

옥송이 기자
ocksong@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널