솔루션

[전문가기고] 데이터 보안과 업무 혁신 사이 딜레마, 합성데이터로 정면 돌파

구방본 SAS코리아 이사

구방본 SAS코리아 커스터머 어드바이저리 본부 이사

요즘 금융권 및 공공기관은 고객 데이터 활용을 매우 엄격한 규제 속에서 운영하고 있다. 그러한 규제 속에서 데이터를 활용하다 보니 여러가지 문제점들도 드러난다. 일례로 유관 기관과 데이터를 공유할 때 가명처리가 과도하게 적용되는 경우가 잦다. 주소를 시·군·구 단위로 통합하거나 나이를 5세 단위로 범주화하면 세밀한 패턴이 사라져 분석 정확도가 급격히 떨어진다. 내부 데이터 외부 반출 시에도 문제는 반복된다. 보안 심사에서 식별 가능성이 있다는 막연한 우려로 승인이 반려되거나 핵심 변수가 삭제돼 분석 자체가 무의미해지는 사례가 빈번하다.

이러한 문제는 유관기관과의 데이터 공유 및 적극적인 데이터 활용을 통한 업무 혁신에 적지 않은 걸림돌이 되고 있다. 최근 이를 해결할 기술로 합성데이터가 떠오르고 있다. 생성형 AI로 실제 데이터를 정교하게 모방하되 개인 식별 정보는 포함하지 않는 방식으로, 그동안 보안 규제에 막혀 있던 금융·공공 데이터 활용의 새로운 돌파구로 주목받고 있다.

왜 금융권에 합성데이터가 필요한가?

금융권은 심사·신용평가 등 각종 모델의 성능을 높이는 데 고품질 데이터가 필수적이지만 실제 데이터를 확보하기는 매우 어렵다. 개인정보보호법과 망 분리 규제 등은 혁신의 속도를 늦추는 요인이 되기도 한다. 고객의 수많은 데이터를 있는 그대로 사용하기엔 여러가지 규제 때문에 매우 어렵다. 이에 실제 데이터의 통계적 특성은 그대로 복제하되 개인 식별 정보는 담지 않는 합성데이터(Synthetic Data)가 현실적 대안으로 급부상하고 있다.

금융권에서 합성데이터를 도입할 경우 다음과 같은 용도로 활용할 수 있다. 우선 합성데이터는 실제 데이터가 아니므로 개인·법인과 1대1로 매칭되지 않아 개인정보보호법에 저촉되지 않는 AI 학습·테스트가 가능하다. 또한 희귀한 금융사기 데이터나 금융거래 실적이 부족한 소외계층 데이터를 인위적으로 생성해 모델 편향성을 줄이고 포용적 금융서비스를 구현하는 데도 쓰인다. 마지막으로 데이터 접근을 위한 복잡한 승인 절차를 우회할 수 있어 데이터 기반 업무 혁신을 위한 신규 서비스 개발 속도를 높이는 효과도 기대된다.

공공 데이터 칸막이 해소의 촉매제

우리나라 공공기관의 해묵은 과제 중 하나인 데이터 사일로 현상도 합성데이터가 해결책이 될 수 있다. 부처 간 민감한 원본 데이터를 직접 주고받는 대신 통계적 가치가 동일한 합성데이터를 공유해 협업 속도를 높일 수 있기 때문이다.

글로벌 시장 조사 기관들에 따르면 2030년엔 AI 학습에 활용되는 데이터 중 합성데이터가 실제 데이터를 앞지를 것으로 예상한다. 우리 공공기관 역시 디지털 플랫폼 정부 구현을 위해 이러한 흐름에 준비해야 한다고 본다. AI 기반 합성데이터는 단순한 ‘가짜 데이터’가 아니라 공공 부문 보안 리스크를 최소화하면서도 디지털 전환을 완성하기 위한 전략적 대안이다.

해외 사례를 살펴보면 금융권에서 머신러닝 기반 신용평가 모델 개발시 실제 데이터의 편향성(소득, 인종, 성별, 나이 등)를 가지고 모델을 만들었을 때 편향성 문제로 대출 심사에서 문제가 발생했다. 머신러닝 모델은 데이터에 차별이나 불균형이 정보가 있으면 그 ‘왜곡된 패턴’을 그대로 학습해 모델을 만들기 때문이다. 이러한 문제를 합성데이터로 편향성 문제를 제거해 신용 평가 모델을 만들었고 그 결과 정확도가 28%나 향상된 결과를 얻을 수 있었다.

최근 우리나라 정부는 인공지능(AI)을 국가 전략의 핵심 축으로 설정하고 2026년부터 본격적인 AI 중심 생태계를 조성하고자 데이터 공유를 위한 각종 규제를 완화하고 있다. 이러한 환경의 변화속에 생성형 AI 기반의 합성데이터는 실제 데이터와 통계적으로 가장 유사한 분포와 특성을 가지면서 원본 데이터를 역추적할 위험이 없기 때문에 여러 기업과 기관에서 AI 업무 혁신을 위해 활발히 활용될 것으로 기대된다.

올해 몇몇 공공기관에서는 파일럿 과제로 ‘SAS 데이터 메이커’를 이용해 합성데이터를 생성하고 데이터 안정성과 유용성을 검증하고 있다. 데이터 보안 측면에서 안전성이 높고 실제 데이터와 매우 유사해 내규 검증 조건을 대부분 충족한다는 피드백을 받고 있다.

2026년은 우리나라에서 생성형 AI 기술 기반의 합성데이터를 본격적으로 활용하고 서비스에 도입하는 원년이 될 것으로 예상된다. 합성데이터와 같은 신뢰할 수 있는 AI 기술을 효과적으로 활용해 고객과 국민을 보호하는 동시에 업무 혁신까지 실현해가는 실질적인 도약이 이루어지길 기대한다.

구방본 /SAS 코리아 커스터머 어드바이저리(Customer Advisory) 본부 이사

<기고와 칼럼은 본지 편집방향과 무관합니다>

구방본 SAS코리아 이사
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널