사이냅소프트 “PDF 변환 없이 HWP 데이터로 AI 학습 지원”

공공·정부기관 문서를 구조 분석하고 있는 사이냅 도큐애널라이저 [사진=사이냅소프트]
[디지털데일리 이안나기자] 문서 AI 기업 사이냅소프트는 PDF 변환 과정 없이 아래아한글(HWP) 원본 문서에서 직접 데이터를 추출하는 문서 분석 솔루션 ‘사이냅 도큐애널라이저’를 통해 공공문서 AI 활용 과정에서 제기되는 기술적 한계를 보완할 수 있다고 19일 밝혔다.
정부가 AI 시대 국가 경쟁력 확보를 위해 공공문서 데이터 개방을 핵심 과제로 제시한 가운데 이를 위한 방안으로 언급된 ‘PDF 변환’ 방식의 실효성을 두고 현장에서는 한계가 지적되고 있다.
공공문서의 상당수가 HWP 형식으로 작성되는 상황에서 이를 PDF로 변환하더라도 데이터가 이미지 형태로 저장될 경우 AI 학습을 위해 다시 텍스트를 추출해야 하는 추가 작업이 불가피하기 때문이다.
실제 공공문서가 스캔 기반 PDF나 이미지 중심 PDF로 저장될 경우 AI나 데이터 분석 시스템이 바로 활용할 수 있는 구조화된 데이터로 전환하기 어렵다. 이 경우 광학문자인식(OCR)이나 후처리 과정을 다시 거쳐야 해 데이터 개방 취지와 달리 업무 부담이 늘어날 수 있다는 지적이 나온다.
이와 관련해 사이냅소프트는 PDF 변환 단계를 생략하고 HWP 원본 문서를 직접 분석하는 방식이 데이터 활용 효율을 높일 수 있다고 설명했다. ‘사이냅 도큐애널라이저’는 HWP·HWPX를 비롯해 MS 오피스 문서, ODT, TXT 등 다양한 문서 포맷을 원본 형태 그대로 분석하는 문서 구조 분석 솔루션이다.
이 솔루션은 단순 텍스트 추출에 그치지 않고 문단, 표, 이미지, 객체 등 문서 구성 요소를 식별해 구조화된 데이터로 변환한다. PDF나 이미지 파일의 경우에도 OCR과 문서 레이아웃 인식을 통해 데이터 구조를 파악한다. 분석 결과는 AI 학습이나 데이터베이스 구축에 활용할 수 있도록 머신 리더블 형식으로 변환된다.
현재 도큐애널라이저는 한국주택금융공사를 비롯한 일부 공공기관과 제조·건설 분야 기업에 도입돼 있으며, 협업툴 기업 토스랩(잔디) 등 민간 서비스형소프트웨어(SaaS) 환경으로도 적용 범위를 넓히고 있다.
전경헌 사이냅소프트 대표는 “공공과 기업이 보유한 문서 자산은 대부분 비정형 데이터 형태로 축적돼 있다”며 “원본 문서에서 데이터를 정확하게 추출하는 접근이 공공 데이터 개방과 AI 활용 효율성을 높이는 데 중요하다”고 말했다.
유튜브 먹통, 1시간여만에 해소… 전 세계 약 28만건 이상 신고 접수
2026-02-18 11:18:39美 증시 강보합 마감… 'AI 공포' 완화됐지만 기술주 여전히 혼조세
2026-02-18 08:37:42호텔 재벌 '하얏트' 프리츠커 회장 퇴진…엡스타인 관련 문건 공개 여파
2026-02-17 21:19:08올해 韓 경제성장률, 美 관세 변수에 달렸다… 관세 25% 부과시 성장률 0.2%p 하락
2026-02-17 17:59:16