[인터뷰] “세계적인 화두로 떠오른 데이터 주권··· ‘집단학습’이 뜬다”

이종현 2022.11.29 10:26:33

[디지털데일리 이종현기자] “데이터 주권은 전 세계적인 추세다. 데이터가 중요한 가치를 지닌다는 것을 인식하자 국가 차원의 데이터 자산화가 이뤄지는 중이다. 이는 많은, 양질의 데이터를 학습해야 할 인공지능(AI) 분야로서는 반갑지 않은 소식이다. 이에 대한 대안으로 등장한 것이 분산학습(Distributed Learning)인데, 앞으로는 여기서 나아간 집단학습(Swarm Learning)이 주류가 되리라 전망된다.”(HPE 데이터 및 AI 분야 부사장 엥림 고 박사)

이달 22일 한국을 방문한 휴렛팩커드엔터프라이즈(HPE)의 데이터 및 AI 분야 부사장인 엥림 고(Eng Lim Goh) 박사는 <디지털데일리>와의 인터뷰에서 이같이 밝혔다. 점점 더 고도화되는 AI의 쓰임새를 소개하며 ‘더 똑똑한 AI’를 만들기 위한 방법론과 여러 시사점을 공유했다.

◆똑똑해진 AI, 배경에는 데이터와 머신러닝 기법 다양화

4년 만에 한국을 찾은 엥림 고 박사가 던진 화두는 여전히 ‘AI’다. 다만 2018년 방한해 AI에 대해 소개할 때와는 차이가 크다. 지금에 비해 AI의 중요성이 부각되지 않았던 당시의 기술 수준과 현재의 기술 수준을 소개하며, AI가 비약적인 발전을 이뤘다고 전했다.

과거 충분히 똑똑하지 않았던 AI가 오늘날에 이른 것은 많은 데이터와 이를 기반으로 한 머신러닝 기법의 고도화 덕분이라는 것이 엥림 고 박사의 설명이다.

그는 AI를 학습하기 위한 방법으로 크게 3개 유형의 머신러닝 기법을 소개했다. 인터넷을 소스로 방대한 양의 데이터를 학습하는 것과 데이터의 양이 충분치 않을 경우 시뮬레이션을 통해 데이터를 생성하고 이를 다시 학습에 활용하는 것, 또 여러 기업·기관이 자신이 보유한 데이터를 학습시킨 뒤 그 결과만을 모아 학습한 뒤 이를 배포하는 것 등이다.

인터넷의 데이터를 바탕으로 학습하는 것은 가장 흔한 유형의 AI 모델이다. 오픈AI가 개발한 GPT-3와 같은 유형이 대표적인 사례다. 하이퍼스케일 AI, 국내에서는 초거대 AI라고 지칭된다. 언어를 이해하는 등 보편적으로 활용 가능한 AI 모델로 꼽힌다.

다만 이와 같은 방식의 AI 모델로는 충분치 않다는 것이 엥림 고 박사의 설명이다. 점차 현실화되고 있는 자율주행이 그 예다.

엥림 고 박사는 “자율주행을 위해 기업들은 실제 차량을 도로에 주행시키고, 매일같이 페타바이트(PB)에 달하는 데이터를 수집해 활용하고 있다. 하지만 160만킬로미터(km)의 주행 데이터를 모아도 자율주행을 하는 데는 턱없이 부족하다고 한다. 그 1000배에 달하는 16억km 정도의 주행 데이터가 필요하다고 하는데, 이를 실제로 운행시켜서 데이터를 얻어내는 것은 매우 어렵다. 데이터를 만들어내서 학습시킬 수밖에 없는 이유”라고 말했다.

데이터를 생성하는 데는 고성능컴퓨팅을 기반으로 한 디지털트윈(Digital Twin)과 같은 시뮬레이션 기술이 요구된다. 원본 데이터를 바탕으로 시뮬레이션을 통해 필요한 수준의 합성 데이터를 생성하고 이를 학습한다는 것이 기본 골자다. 이는 자율주행과 헬스케어 등, 기술 구현을 위해 필요로 하는 데이터가 충분치 않은 경우 쓰이는 방식이다.

◆“앞으로는 ‘집단학습’이 AI 훈련의 표준될 것”

여러 방식의 AI 학습 방식 중 엥림 고 박사가 주목하는 것은 집단학습이다.

그는 집단학습을 소개하기 위해서는 분산학습에 대한 이해가 선행돼야 한다고 전했다. 분산학습은 원본이 되는 데이터는 공유하지 않고, 그 데이터를 학습한 결과를 모아서 다시 학습하는 것을 기본 골자로 한다. 2단계의 학습을 거쳐서 나온 결과물은 모든 데이터를 학습시켜 얻어지는 결과물과 동일한 수준이다.

엥림 고 박사는 “AI를 위해서는 결국 양질의, 많은 데이터가 필요하다. 하지만 최근에는 세계 각국이 규제를 강화하면서 데이터를 공유하는 것이 어려워지고 있다. 하나의 기업이 여러 국가에 공장을 둔 경우, 각 공장에서 생성되는 데이터를 결합하는 것에도 제약이 있는 경우도 있다. 특히 금융이나 의료와 같은 경우 프라이버시 문제로 데이터 활용이 엄격하게 제한된다”고 분산학습이 대두된 배경을 전했다.

이어서 “분산학습의 결과물은 데이터 주권과 프라이버시라는 장벽을 해결한, 대단히 의미 있는 방법이다. 다만 학습된 데이터를 모으는 중앙 조정자(Central Coordinator)가 문제가 된다. 누가 주체가 될 것이냐에 대한 논쟁이 있을 수 있다”며 “이런 문제를 불식시키기 위해 중앙 조정자를 블록체인으로 대체하는 것이 집단학습의 기본 개념”이라고 밝혔다.

HPE는 집단학습을 바탕으로 글로벌 의료기관과 프로젝트를 이어가는 중이다. 기술 혁신을 기반으로 프라이버시를 지키는 동시에 건강이라는 인류 공통의 이익을 달성하는 유익한 사례라고 강조했다. 특정 지역에서는 유행하지 않는 질병에 대해 선행 학습하거나, 큰 규모의 병원으로부터 작은 병원이 배운다든지 하는 등의 사례가 나타는 중이라는 설명이다.

엥림 고 박사는 “과거 데이터를 저장하는 것을 코스트로 생각하는 시기가 있었다. 하지만 이제는 그 가치를 인식하고 자산으로 평가하는 중이다. 점점 더 규제가 강해진다면 집단학습이 머신러닝의 새로운 표준으로 자리하게 될 것이라고 본다”고 말했다.

◆“특정 방식이 우월하진 않아··· 방법론의 차이일 뿐”

여러 AI 학습방식에 대해 소개한 엥림 고 박사이지만 어느 하나의 방식이 절대적으로 우월하지는 않다고 강조했다. 집단학습의 경우 어떤 데이터를 소스로 하는가에 상관없이 적용 가능한 방식이기에 우월성을 따지는 것이 의미가 없다.

그는 시뮬레이션을 통해 얻어진 데이터를 학습하는 경우 보다 목적에 적합한, 많은 데이터를 확보할 수 있지만 그 출발점이 사람에 의해 결정되는 만큼 편향(Bias)이 생길 수 있다고 꼬집었다.

엥림 고 박사는 “선생이 학생에게 10권의 책을 제시하는 것과 학생이 직접 도서관에서 여러 책을 찾아 공부하는 것에 비유할 수 있다”며 “선생이 책을 선정해주는 것이 더 효율적이라고 생각할 수 있겠지만, 애초에 선생이 적절하지 않은 책을 선정했을 수도 있다. 반대로 도서관에서 직접 책을 찾는 것이 무조건 좋다고 볼 수도 없다”고 말했다.

이어서 “특정 방식이 정답이라고는 할 수 없다. 각각이 장단점을 가진 서로 다른 방법론이다. 반드시 어느 하나의 방식만 채택할 필요도 없다. 자율주행을 위해서는 2개 방식을 함께 활용한다”고 부연했다.

그는 사람에 의한 편향뿐만 아니라 AI가 도출해내는 결과물에 대한 내용도 포함한, 포괄적인 편향에 대해 더 많이 고민하게 될 것이라고 내다봤다.

엥림 고 박사는 “AI가 굉장히 발전했지만, 우리는 AI가 왜 이런 질문에 이런 대답을 내놓는지 모른다. 지금까지의 AI는 소프트웨어 개발직군에 속하는 데이터 사이언티스트들의 전유물이었으나 앞으로는 사회학이나 인문학, 뇌신경학 등 다른 분야의 종사자들도 함께 연구를 시작하게 될 것”이라며 “또 한국을 찾게 된다면 그때는 더 진보된 이 주제에 대해 얘길 나누자”고 피력했다.