보안

S2W, 글로벌 AI 학회 'EMNLP 2025' 논문 채택

김보민 기자
[ⓒS2W]
[ⓒS2W]

[디지털데일리 김보민기자] S2W가 대규모언어모델(LLM) 토큰화 구조의 취약점을 규명한 연구로 글로벌 인공지능(AI) 학회에 이름을 올렸다.

S2W는 한국과학기술원(KAIST)과 공동연구팀과의 논문이 '자연어처리방법론학회(EMNLP) 2025'에 채택됐다고 10일 밝혔다. EMNLP는 전산언어학학회(ACL) 및 북미전산언어학학회(NAACL)와 함께 자연어처리(NLP) 분야 세계 3대 학술대회 중 하나로 꼽힌다.

S2W는 이번 채택으로 글로벌 권위 AI 학회에서 4년 연속 논문을 등재하는 쾌거를 이뤘다. 앞서 S2W는 다크웹 언어 관련 및 자체 개발 사이버보안 문서 특화 언어모델 '사이버튠' 관련 논문으로 NAACL에서 두 차례 논문을 발표했다. 독자 개발한 다크웹 도메인 특화 언어모델 '다크버트' 관련 논문도 ACL에 채택됐다.

이번 논문은 LLM 내부 처리 기능 중 하나로 문장 분석 과정에서 문자를 분절해 처리하는 도구 '토크나이저'가 환각을 유발할 수 있다는 내용을 담고 있다. 특히 LLM이 비영어권 언어로 활용되는 경우, 토크나이저가 일부 문자를 쪼개지 못해 '불완전 토큰'으로 남는 현상에 주목했다.

S2W는 토크나이저 설계로 발생한 환각 현상이 영어 이외 언어에서 자주 나타난다는 점을 주목했다. 그만큼 모델 답변 품질이 영어권보다 비영어권에서 저하될 수 있는 가능성을 제시했다. 영어는 한 글자가 1바이트로 구성되지만 한국어, 일본어, 중국어 등은 한 글자가 여러 바이트로 표현된다. 때문에 '바이트 페어 인코딩(BPE)' 기반 토크나이저는 문자를 바이트 단위로 분해하는 과정에서 글자 중간이 잘린 토큰을 생성하기 쉽다.

박근태 S2W 최고기술책임자(CTO)는 "이번 논문은 각국이 자국 언어와 데이터를 기반으로 AI를 개발·운영해야 하는 '소버린(Sovereign) AI'에 관한 논의에 시사점을 제공한다"고 말했다. 이어 "토크나이저가 영어 외 언어를 안정적으로 처리하지 못한다면, 여러 국가의 자국 언어 기반 AI 모델을 신뢰성 있게 운영하기 어렵기 때문"이라며 "S2W는 신뢰할 수 있는 AI를 만들기 위한 가장 선도적인 연구 성과를 창출할 계획"이라고 강조했다.

김보민 기자
kimbm@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널