“경상돈데~”…토종 AI 기술, 이젠 구어체도 인식한다

2020.08.06 16:27:24 / 채수웅 woong@ddaily.co.kr


[디지털데일리 채수웅기자] 글을 이해하는 인공지능(AI)을 넘어 사람의 말까지 이해할 수 있는 AI 서비스 개발이 속도를 낼 전망이다.

한국전자통신연구원(ETRI)은 위키백과 및 법령 등 문어체를 주로 이해하는 기존 언어분석 기술을 확장해 사람의 대화를 이해할 수 있는 구어체 언어분석 기술을 공개했다고 밝혔다.

ETRI가 개발한 엑소브레인(Exobrain)은 현재 한컴오피스 2020에 탑재되는 등 이미 상용화가 이뤄진 AI 기술이다. ▲언어분석 기술 ▲딥러닝 언어모델 기술 ▲질의응답 기술 등이 적용됐다. 특히 언어분석 API는 2017년 10월 공개 이후, 일 평균 2만6000건 등 총 2600만건이 사용됐다.

연구진은 기존 문어체 기술 중심의 엑소브레인을 고도화해 사람의 대화까지 정확하게 이해할 수 있는 구어체 언어분석 기술을 개발하는 데 성공했다. 사람의 대화 분석오류를 최대 41% 개선, 정확하게 이해할 수 있다는 것이 연구진의 설명이다.

ETRI가 공개한 구어체 언어분석 기술은 크게 형태소분석 기술과 개체명 인식 기술이다. 형태소 태그는 47개, 개체명 태그는 146개다.

형태소분석 기술은 한국어 의미의 최소 단위를 분석하는 기술로 한국어 처리에 필수적으로 활용된다. 특히 지난해 코버트(KorBERT) 딥러닝 언어모델의 기본 입력으로 적용, 많은 기업에서도 ETRI 제안 방법과 같이 형태소분석에 기반한 딥러닝 언어모델 기술을 활용 중이다.

개체명 인식 기술은 문장 내 고유 대상과 그 의미를 인식하는 기술로 AI스피커와 챗봇 등 다양한 언어처리 서비스에서 활용되고 있다. 예를 들어, ‘국민은행’이라는 단어가 ‘국민’이라는 명사와 ‘은행’이라는 명사의 결합이 아닌 고유 은행 명칭이라는 점을 인식하는 기술이다.

구어체 언어분석의 어려운 점은 과업 자체의 난이도와 학습데이터 부족에 있다. 예를들어 ‘경상도인데’를 ‘경상돈데’라고 구어체로 표현하는 경우, 기존 형태소분석 기술은 ‘경상도+인데’라는 축약 표현을 인식하지 못한 채 ‘경상돈+데’라고 분석하는 것이다.

또한, 기계학습 및 딥러닝 기술이 대규모 학습데이터를 필요로 하는 데 반해 구어체 분야는 데이터 확보조차 어렵다는 문제가 있다. 실제 개체명 인식 학습데이터의 경우, 문어체는 약 27만 건이지만 구어체는 10분의1 수준인 2만5000건 수준에 불과했다.

연구진은 전이학습(transfer learning)과 데이터 증강(data augmentation) 기법을 활용해 학습데이터 부족 한계를 극복해냈다. 전이학습과 데이터 증강기법은 학습 데이터가 부족한 환경에서 딥러닝 기술 한계를 극복하기 위한 기술이다. 이미 존재하는 타 분야의 학습 모델과 소량의 학습데이터를 재사용하는 방식으로 학습이 이뤄진다.

그 결과, 본 구어체 언어분석 API는 기존 모델 대비 형태소분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선됐으며 41.74%, 39.38%에 달하는 오류감소율을 나타냈다. 특히, 형태소분석은 메캡(Mecab) 오픈소스 라이브러리 대비 10.6% 더 우수한 것으로 평가됐다.

ETRI 연구진은 구어체 언어분석 API와 더불어 기존 대비 성능을 개선한 문어체 언어분석 API도 추가로 공개했다. 추가로 공개된 API는 형태소분석과 개체명 인식 기술이 각각 96.80%, 89.40%의 정확도를 보였다.

ETRI 언어지능연구실 임준호 박사는 “기존 엑소브레인 언어분석 기술이 백과사전 및 법령을 분석하기 위한 목적으로 개발되었음에도 구어체 분야에 많이 적용되고 있었다”며 “이번 구어체 언어분석 API 공개로 언어분석의 정확도 및 신뢰도를 제고해 국내 인공지능 시장이 더욱 활성화되길 기대한다”고 밝혔다.

<채수웅 기자>woong@ddaily.co.kr



네이버 뉴스스탠드에서 디지털데일리 뉴스를 만나보세요.
뉴스스탠드


  • IT언론의 새로운 대안-디지털데일리
    Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
 
[이지크로] 안전하고 믿을 수 있는 에스크로
  • 동영상
  • 포토뉴스
[슬기로운 소비생활] 밥솥 구매할 때 크기만… [슬기로운 소비생활] 밥솥 구매할 때 크기만…
  • [슬기로운 소비생활] 밥솥 구매할 때 크기만…
  • 세계 어디에 있어도 찾는다…삼성전자 ‘스마…
  • LG전자, 클로이 서브봇 의료기관 공급 확대
  • 삼성전자 인공인간 ‘네온’, CJ에서 데뷔한다