AI

과기정통부·NIA가 제시하는 AI 데이터 품질관리 기준은?

이나연 기자
[ⓒ NIA 인공지능데이터본부]
[ⓒ NIA 인공지능데이터본부]

[디지털데일리 이나연기자] 과학기술정보통신부와 한국지능정보원(NIA)이 고품질 데이터 생태계 마련을 위한 고도화된 기준을 제시했다. 이 가이드라인은 급변하는 인공지능(AI) 기술 환경 속에서 현장 실무자가 즉시 적용 가능한 품질관리 도구로 활용될 것으로 보인다.

과학기술정보통신부와 한국지능정보원(NIA)는 'AI 데이터 품질관리 가이드라인 v3.5'를 공개했다고 4일 밝혔다.

AI데이터 품질 가이드라인은 2021년 버전 1.0을 시작으로 매년 고도화 해왔다. 올해 3.5 버전은 작년 대비 데이터 구축 방법론을 추가하고 생성형AI 데이터 특화 기준을 강화했다. '초거대AI 확산 생태계 조성사업' 실증 경험을 반영해 최신 기술 변화와 산업 수요를 아우른 게 특징이다.

1권은 AI 데이터 품질관리의 전체 프레임워크와 체계를 다룬다. 데이터 획득·수집과 정제, 가공 ,학습의 전 공정에 걸친 품질관리 프로세스를 안내한다. 특히 '데이터 품질 주요 특성'을 중심으로 데이터 형태와 전문 도메인을 고려한 900종 이상의 품질지표 선정 실증 사례를 전부 수록했다.

2권은 다양한 유형의 데이터를 선정해 구축 과정을 상세히 기재한 '케이스 스터디' 형태로 제공한다. 예를 들어, 한국 전통 문양 데이터는 문양의 의미와 특징을 설명하는 캡셔닝 데이터로 구축돼 K-컬처의 특성을 고려한 시각 정보 다양성을 확보했다.

위암 병리 합성 데이터는 병리 영상의 미세한 패턴을 반영해 실제와 유사한 합성 이미지를 생성해 의료 데이터의 합성 과정에서 직면할 수 있는 문제를 해결하는 과정을 보여준다.

생성형AI 시대에 요구되는 품질관리 체계를 새롭게 정립하려는 시도도 있다. 3권은 생성형AI 데이터에 특화된 품질관리 기준을 다루며, 거대언어모델(LLM)뿐만 아니라 이미지·음성·텍스트 등 다양한 멀티모달모델(LMM)에 맞춘 방법론을 별도 제시한다.

최근 주목 받는 '합성 데이터' 품질관리 체계도 다룬다. AI가 생성한 데이터를 다시 AI 학습에 활용할 때의 품질관리 방법, 실제 데이터와의 적절한 혼합 비율 등 실무적인 가이드를 제공한다.

이러한 내용의 가이드라인은 수많은 AI 데이터 구축 과제와 기관들에서 실무 운영 지침으로 참조 레퍼런스로 채택되고 있다. 국방부 산하 한국국방연구원과 국군방첩사령부, 경찰청 등이 과기정통부·NIA 가이드라인을 참조해 자체 가이드라인을 수립했거나 관련 기준을 마련 중이다.

신신애 NIA 인공지능데이터본부장은 "이번 가이드라인은 AI 데이터 품질기준에 대한 표준 안내서가 되도록 실제 사례와 검증된 방식을 기반으로 구성했다"며 "국내 AI 데이터 품질 기준을 선도하는 기준서로 가이드라인을 발전시킬 것"이라고 말했다.

이나연 기자
lny@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널