AI

수능, 인공지능도 진땀 뺐다…"소버린 AI 모델 필요성의 이유?"

이건한 기자

전세계 AI 산·학·연이 공개하는 각종 AI 연구논문, 조사분 석 결과는 흥미롭지만 복잡하고 읽기 어렵습니다. AI 리서치뷰는 이를 비전문가도 쉽게 이해할 수 있도록 요점만 압축 리뷰해 드립니다. <편집자주>

ⓒ AI 생성 이미지

[디지털데일리 이건한 기자] 요즘 챗GPT, 제미나이 같은 AI의 성능은 거의 만능에 가까워 보입니다. 웬만한 전문가 뺨치는 수준의 글쓰기, 이미지·영상 생성, 심지어 복잡한 코딩까지 해내는 것을 보면 감탄이 절로 나옵니다. 물론 "모르겠어요"라고 잘 말하지 않는 AI의 자존심이 종종 잘못된 답을 내뱉는 '환각'으로 이어지기도 합니다. 하지만 세계적인 추세를 볼 때 그에 대한 기술 보완과 성능 개선 속도는 매우 빠르게 이뤄지고 있습니다. 확실한 것은 오늘날 AI는 매일 한 걸음씩 더 완전체에 가까워지고 있다는 사실이지요.

이 가운데 재미있는 논문을 하나 소개합니다. 마침 올해 수능도 불과 3주 앞으로 다가온 시점인데요. 이 똑똑한 AI들이 세계적으로도 높은 난이도를 자랑하는 한국 수능에서도 높은 점수를 기록할 수 있을지에 대한 실험이 포함된 논문입니다. 특히 수능을 비롯한 국내 학력평가 시험들은 한국만의 고유한 교육 과정, 문화적 맥락까지 이해하고 있어야 올바르게 추론할 수 있는 문제도 적지 않은데요. 실제로 최근 네이버 클라우드와 카이스트(KAIST) AI 연구진이 공개한 AI 학력 평가도구 'KoNET(Korean National Educational Test Benchmark)'을 통해서 AI가 여전히 수능처럼 어려운 시험에서는 약한 면모를 보인다는 사실이 확인됐습니다.

◆ 읽을 만한 이유

이번 논문은 다양한 국내외 AI 모델이 한국의 초등, 중등, 고등, 나아가 수능 수준의 시험까지 응시한 결과에 대한 분석 내용을 담고 있습니다. 특히 AI가 만능을 향해 더 유의미한 발걸음을 내딛으려면 단순 지식을 넘어 '언어와 문화의 벽'을 반드시 넘어야 한다는 점을 확인해볼 수 있습니다. 특히 AI 시대의 교육 정책을 고민하는 관계자들이라면 교육과 접목될 AI가 어떤 문제에서 강점과 약점을 보이는지에 대한 흥미로운 결과도 제공하기에 일독을 권합니다.

◆ 핵심 내용

① '수능'의 벽은 높았다

참고로 이번 연구는 크게 고성능 폐쇄형 모델(오픈AI GPT, 구글 제미나이, 앤트로픽 클로드, 네이버 하이퍼클로바X)과 고성능 오픈소스 모델(알리바바 큐원, 구글 젬마, LG AI연구원 엑사원) 사이의 비교 결과들을 눈여겨 볼만합니다.

연구진은 KoNET으로 이들 모델의 초등, 중등, 고등 검정고시와 수능 문제 풀이 능력을 집중적으로 검증했습니다. 그 결과 매우 일관된 패턴이 발견됐는데요. 먼저 당연해 보이지만 시험의 수준이 높아질수록 AI의 성능이 꾸준히 하락한 것입니다. 문제는 그 격차가 상당하다는 겁니다. 폐쇄형과 오픈소스 모델의 차이도 컸습니다.

우선 GPT-4o, 클로드 3.5 소네트, 제미나이 1.5 프로, 하이퍼클로바X(2409)가 참전한 폐쇄형 모델 테스트 결과에서는 초등~고등 검정고시까지 평균 80% 후반에서 90% 중반대의 높은 정확도(정답률)가 기록됐습니다. 반면 수능 문제의 정확도는 50% 초반에서 60% 중반으로 대폭 떨어진 점이 확인됐습니다.

큐원2, 젬마2-27B, 엑사원 3.0이 참전한 오픈소스 모델 테스트의 경향도 비슷했습니다. 다만 성능은 폐쇄형보다 훨씬 낮았습니다. 초등~고등 검정고시까지는 정확도가 평균 60~70%대였고 수능에서는 불과 20~30%대에 그쳤습니다.

이는 수능의 요구하는 고차원적 추론 능력과 여러 개념을 복합적으로 이해해야 하는 문제의 '높은 복잡성'이 최신 AI 모델에게도 여전히 넘기 어려운 벽임을 명확히 보여줍니다. 또한 문제의 난이도는 둘째 치고 폐쇄형과 오픈소스 모델의 격차가 크게 나타난 이유도 궁금해집니다. 연구진은 이점에 대해 GPT나 클로드 같은 모델은 비즈니스를 위한 상용 모델이기 때문에 초기 학습부터 한국어 데이터 튜닝이 더 정교하게 이뤄진 결과로 분석했습니다. 이는 누구나 접근성이 높고 무료로 사용할 수 있는 오픈소스 모델로는 복잡한 한국어 추론 문제를 해결할 때 마이너스(-) 요소가 있다는 의미입니다.

KoNET 데이터셋이 한국 교육 시험 문제를 멀티모달 형식으로 변환해 AI에 제시하는 방식 예시 (ⓒ 논문 발췌)

② "두유↗노우→용비어천가?"

한국어 시험을 다룬 이번 연구에서는 다행히 토종 AI가 선전했습니다. 특히 한국어에 특화된 LG AI 연구원의 엑사원 모델은 KoNET 평균 45.5점을 기록해 비슷한 체급(7~8B)의 다른 글로벌 모델들을 압도하는 성능을 보인 것으로 나타났습니다.

그 비결은 '문화적 맥락'의 이해에 있었습니다. 예를 들어, 고등학교 시험에는 1445년 조선시대에 편찬된 고전 문학 '용비어천가' 관련 문제가 포함돼 있습니다. 이는 한국 교육의 표준 과정이지만 관련된 문화적, 역사적 배경지식이 없는 AI 모델들은 정답을 맞히지 못했습니다. 반면 한국 역사와 문화 데이터에 특화된 엑사원은 이 같은 문제들을 성공적으로 풀어냈지요. 특정 언어와 문화에 특화된 학습이 현지 AI 성능에 얼마나 중요한지 입증한 케이스입니다. 또한 앞서 한국어 데이터 튜닝에 힘쓴 폐쇄형 상용 AI 모델들이 오픈소스 모델보다 좋은 점수를 기록한 것과 연결되는 지점이기도 합니다.

③ AI와 인간은 '틀리는 유형'도 달라

KoNET 연구의 또다른 백미는 AI의 오답을 실제 인간의 오답과 비교한 대목입니다. 이를 위해 연구진은 실제 수능에 응시했던 약 50만5000명의 학생 데이터를 분석했는데요. 그 결과 AI와 인간의 오류 패턴은 예상보다 상관관계가 높지 않았습니다. AI가 어려워하는 문제와 인간이 어려워하는 문제가 서로 달랐다는 의미입니다

먼저 AI는 긴 지문을 읽고 문장의 순서를 맞추거나 적절한 위치에 문장을 삽입하는 등, '이해력' 기반 문제에 강했습니다. 계산력이 뛰어난 컴퓨터 시스템다운 강점이지요. 이처럼 AI는 대체로 인간이 주의력 저하로 실수하기 쉬운 문제에서 뛰어난 성능을 보였습니다. 반대로 인간은 출제 빈도가 낮은 '장기기억(long-tail)' 기반의 암기형 문제에서 AI보다 강점을 보였습니다. AI도 학습력과 기억력은 좋습니다. 단지 인간 응시자들은 수년 간의 교육 과정에서 반복적으로 요구되는 중장기 암기 데이터들이 있습니다. 그에 대한 다양한 적용 사례와 맥락 인지 측면에서 AI보다 앞선 결과물로 해석됩니다.

◆ 시사점

수능이라는 흥미로운 소재가 담겼지만 이번 네이버와 카이스트의 KoNET 연구는 'AI의 지능'을 평가하는 잣대가 더 이상 영어권에만 머물러서는 안 된다는 메시지를 담고 있습니다. 유명 회사의 고성능 최신 AI가 특정 벤치마크에서 높은 성능을 보인다고 해서, 전세계 모든 언어와 문화에서 동일한 성능을 발휘할 것이라 기대하기 어렵다는 것입니다. 이는 이번 연구에서 한국인들도 어려워하는 수능이라는 구체적 시험지를 통해 수치로도 입증됐습니다. 나아가 한국이 AI 시대에 자국 언어와 문화에 특화된 소버린 AI 모델과 기술을 중장기적으로 계속 축적해 나가야 하는 근거가 되기도 합니다.

또한 AI와 인간 학생의 오답 패턴 비교는 AI의 역할을 재정의하게 합니다. AI는 인간의 '주의력'이나 '이해력' 부족을 보완하는 강력한 보조 도구가 될 수 있습니다. 하지만 인간 고유의 '장기 기억'이나 '맥락적 암기' 능력은 여전히 AI의 모자란 점을 채우는 인간만의 무기가 될 수 있다는 가능성도 확인됐습니다.

한편 연구진은 KoNET의 한계로 대부분의 실험 문제가 객관식이었다는 점을 꼽았습니다. 실제 더 깊이 있고 정밀한 추론 능력을 테스트하려면 정답의 근거를 설명하는 주관식 평가 비중도 높아져야 한다는 숙제를 남깁니다.

※ 원문 - 한국 교육 표준을 이용한 멀티모달 생성형 AI 평가(Evaluating Multimodal Generative AI with Korean Educational Standards, 공동 제1저자 네이버클라우드 박상희, 카이스트·네이버클라우드 김기욱)

이건한 기자
sugyo@ddaily.co.kr
기자의 전체기사 보기 기자의 전체기사 보기
디지털데일리가 직접 편집한 뉴스 채널