AI

LLM 장문 맥락 처리 한계 발견…콕스웨이브 연구 논문 ACL 2025 채택

이나연 기자

논문 참여 연구진. 왼쪽부터 김상엽 AI 팀장, 이엽 이사, 김동언 이사 [ⓒ 콕스웨이브]

[디지털데일리 이나연 기자] 인공지능(AI) 제품 분석 플랫폼 얼라인(Align) 운영사 콕스웨이브가 자사 거대언어모델(LLM) 취약점 발견 연구 논문이 국제자연어처리학회(ACL) 2025 메인 컨퍼런스에 채택됐다고 12일 밝혔다.

ACL 2025의 '윤리, 편향성, 공정성(Ethics, Bias, and Fairness)' 트랙에 선정된 이번 논문은 최근 AI 업계에서 주목받는 대화형 AI 모델의 장문 맥락(Long-context) 처리 시 발생하는 구조적 보안 취약점을 발견한 연구다.

앞서 콕스웨이브는 얼라인 운영 과정에서 LLM의 긴 맥락 처리 시 발생하는 보안 취약점을 발견해 이기민 카이스트 교수와의 학술 연구 협업을 추진했다. 이기민 교수는 구글 리서치 출신이자 카이스트 김재철 AI 대학원에서 부교수로 재직 중인 전문가다. ICML, NeurIPS, ICLR 등 AI 학회에서 다수 논문을 게재했으며, 작년 9월 콕스웨이브의 어드바이저로 합류했다.

연구진은 최대 12만8000개 토큰을 활용한 광범위한 실험을 통해 기존 AI 안전 매커니즘의 근본적 한계를 발견했다. '다중샷 탈옥(Many-Shot Jailbreaking)' 기법을 통해 LLM 취약점이 입력 내용의 정교함이나 유해성과 무관하게 대화 길이 자체에 의해 결정된다는 것을 입증했다.

실제 연구 결과, 반복적인 무의미한 텍스트나 무작위 더미 텍스트만으로도 모델의 안전 장치를 우회할 수 있다는 점이 확인됐다. 콕스웨이브 측은 "정교한 해킹 공격 없이도 안전 매커니즘을 무력화할 수 있음을 의미한다"며 "잘 정렬된 모델들조차 긴 맥락에서는 안전 행동의 일관성을 잃는다는 것을 보여준다"고 설명했다.

김주원 콕스웨이브 대표는 "이번 ACL 논문 채택은 단순한 생성형 AI 오류 탐지를 넘어 위험 요소의 근본 원인을 분석하고 선제적으로 대응할 수 있는 콕스웨이브의 기술력을 인정받은 결과"라며 "연구를 통해 확인된 안전성 검증 역량을 얼라인에 적극 반영해 안전하고 신뢰할 수 있는 생성형 AI 생태계 구축에 더욱 기여하겠다"고 말했다.

한편 ACL은 자연어처리 및 컴퓨터 언어학 분야의 세계 최고 권위 학술대회로 뉴립스(NeurIPS), 국제머신러닝학회(ICML)와 함께 어깨를 나란히 하는 세계적인 학회로 꼽힌다.

이나연 기자
lny@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널