SKT 에이닷노트 STT 고도화 위한 ‘역발상’...“잡음을 섞자”

4일 송명석 SK텔레콤 매니저가 ‘SK AI 서밋2025’ 세션 발표에서 ‘에이닷(A.)노트 음성인식 성능을 끌어올린 생성형AI 전처리 기술 소개’를 주제로 발표하고 있다.
[디지털데일리 오병훈기자] “회의 음성 데이터에는 다양한 잡음이 섞여 있기 때문에 전처리 과정에서 이를 효율적으로 제거하는 것이 중요합니다. 효율적인 제거 작업을 위해서는 다양한 잡음 데이터를 확보하는 것이 필수적입니다. 생성형 인공지능(AI) 일종인 디퓨전AI를 활용해 쉽게 잡음 데이터를 확보하고 모델 학습에 활용할 수 있었습니다.”
4일 송명석 SK텔레콤 매니저는 코엑스 ‘SK AI 서밋2025’ 세션 발표에서 ‘에이닷(A.)노트 음성인식 성능을 끌어올린 생성형AI 전처리 기술 소개’를 주제로 발표하면서 이같이 말했다. 그는 에이닷노트 상용화 과정에서 적용된 음성-텍스트 변환(STT) 고도화 기술을 소개했다.
에이닷노트는 SK텔레콤 AI에이전트 애플리케이션(앱) 에이닷에 탑재된 STT 서비스다. 통화와 회의 녹음 데이터를 집어 넣으면 이를 텍스트로 변환시켜준다. 방대한 통화 음성을 학습한 모델을 기반으로 작동하기 때문에 효율적인 데이터 수집과 전처리가 필요하다.
송 매니저는 데이터 전처리 과정에서 통화 음성 데이터와 회의 녹음 데이터 간 간극을 줄이는 것이 핵심이라고 설명했다. 통화 음성은 발화자가 마이크를 입에 가까이 대고 녹음하기 때문에 명료하지만, 회의 녹음은 멀리 있는 발화자의 목소리가 뭉개져 불명확하게 녹음된다.
문제는 에이닷노트의 대부분 학습 데이터가 명료한 통화 녹음 데이터를 기반으로 학습이 진행됐다는 점이다. 개발팀은 회의 음성 데이터 STT 품질도 함께 높일 수 있는 방안을 고민하기 시작했다. 실제 회의 음성을 직접 확보해 학습시킬 수도 있지만 수집 효율을 높이기 위해 일부러 잡음을 섞은 데이터를 생성하는 방안을 고안했다.
송 매니저는 “처음에는 지하철 등에서 단순한 노이즈를 녹음해 학습시키는 방안을 동원했으나 이는 변환 대상 음성이 없는 데이터였다”며 “이에 조용한 곳에서 명료하게 녹음된 음성에 잡음을 섞는 식으로 데이터를 확보했다”고 말했다.
이 과정에서는 디퓨전AI 모델이 활용됐다. 디퓨전 AI 모델은 노이즈를 차례로 줄여나가면서 이미지·음성 데이터를 생성하는 AI다. 디퓨전AI 모델 과정을 거꾸로 실행시켜 명확한 음성에 잡음을 더해 기존 데이터로도 잡음 섞인 데이터를 확보하겠다는 발상이다. 데이터 확보도 용이해졌으며 동시에 다양한 잡음 제거 전처리 과정도 학습시킬 수 있었다는 것이 송 매니저 설명이다.
송 매니저는 “잡음 데이터를 확보하는 프로세스가 만들어진 이후에는 데이터셋 확보가 쉬워졌다”며 “잡음 없는 공개 음성 데이터 셋에 잡음을 섞고 학습시키면 된다”고 강조했다.
그러면서 “이같은 기술은 에이닷노트에서 처음으로 상용화됐다”며 “이번에 개발한 생성형AI 활용 데이터 전처리 기술은 다른 음성 기반 서비스 품질을 높이는 데도 기여할 수 있을 것으로 기대하고 있다”고 말했다.
이재명 대통령, 오늘 취임 1주년 기자회견…민생경제·2년차 국정목표 제시
2026-06-08 06:47:217개월간 7번째 만남도 7시에…최태원·젠슨 황, ‘깐부치킨’서 또 치맥 회동
2026-06-07 20:59:41[DD 주간브리핑] 로봇빌딩서 만나는 정의선·젠슨 황…애플, WWDC서 AI 비서 판도 뒤집기
2026-06-07 17:00:00'트럼프 랠리' 신기루였나…비트코인, 6만달러선 붕괴에 시장 '충격' [주간 블록체인]
2026-06-07 17:00:00