[기획] AI 핵심기술 ‘한국어 자연어 처리’ 세종계획 2

- 문제점 투성인 1차 '21세기 세종계획', 2007년 감리보고서 “향후 재활용 어렵다” 결론

nl1998년부터 10년간 추진해 2007년에 마무리된 1차 '21세기 세종계획'은 “투입된 돈에 비교해 거의 쓸모가 없을 정도로 초라했다” 라는 평가를 받았다. 심지어 2007년 감리보고서에선 “향후 재활용 어렵다”라고 까지 결론지었다.
 
2009년 당시 진성호 의원의 국정감사 자료에 근거해 무엇이 문제였는지 살펴보면, 당초 세종계획은 10년 동안 기초자료인 현대국어 말뭉치, 현대국어 분석 말뭉치, 북한/해외한국어 말뭉치, 옛문헌/방언/구비문학 말뭉치, 대역(한국어-외국어) 말뭉치 등을  6억 5500만 어절 구축한다고 계획했지만, 약 2억 어절만 구축했다는 것이다.

이 2억 어절 속에는 이전에 구축해 온 각종 말뭉치, 즉 국립국어원에서 표준국어대사전 편찬을 위해 만들어 놓은 말뭉치와 예전 정보통신부의 ‘STEP 2000’이란 국가 과제로 입력해 놓은 말뭉치가 포함되어 있다. 따라서 말뭉치 구축 위주의 기초 자료 구축은 원래의 목적에 비해 약 30%만 시행됐다. 

전자사전 구축도 원래의 계획에 비해 매우 축소됐다. 기본 사전(80만), 전문용어 사전(35만), 언어정보 사전(170만), 대역 사전(31만), 개념 사전(30만) 등을 목표로 잡았지만 60만 항목만 구축했다.

그 이유는 일반 국민들이나 국어 정보 처리 연구자들의 요구하는 대용량의 전자사전이 아니라, 언어학적으로 매우 정밀한 전자사전을 구축하려고 한 데에 원인이 있다며, 전자사전 구축은 언어학적 연구로서는 성공한 셈이지만, 다양한 방면으로 활용하려는 용도로서는 그리 효율적이지 못한 편이라고 지적했다. 

한민족 언어 정보화 역시 원래의 계획에서 아예 없어지는 등 크게 후퇴했을 뿐만 아니라 예산의 대폭 삭감과 잦은 사업 변경으로 인해 중도에 연구책임자와 연구자 모두가 사퇴하는 일도 있었다고 밝혔다. 

또한 국립국어원이 목표한 신조어․전문용어 순화(전산․ 전자, 문화․ 산업․ 경제 전 분야)에서 신조어 순화는 아예 없어지고, 산업분야에서 매우 중요한 전문용어는 전문용어 센터로 이관했다. 남북한 언어 비교 사전은 13,000 항목만 구축하고, 한국어 교육 지원은 한국어 세계화 과제로 이관했다. 언어정보 통합 네트, 남북한 및 해외동포의 정보화, 남북한 간 이질성 극복 사업은 없어졌다.

옛 한글 및 한자코드를 정비해 국민들의 국어 정보화를 원활하게 하려는 국어 정보처리 표준화 분야인 기준 부호계, 비표준문자 등록 및 표준화, OCR 전용 글꼴, 한글 자형 표준화 등 사업은 대부분 소멸됐다.  

특히, 핵심 소프트웨어 개발 분야에서는 국어 정보화라는 본래 취지를 무색할 정도다. 빈도 조사 프로그램 등 문체 분석기, 지능형 문서 작성기 등 국어처리 소프트웨어 개발은 용례 추출기(글잡이)와  문장 분리기만 개발하는데 그쳤다. 말뭉치 구축 소프트웨어(계획: 형태소 해석기, 구문 분석기,  국어 생성기)는 일부만 개발하는가 하면, 언어지식 처리 소프트웨어( 개념 분류 체계, 분야별 시소러스 조사 결정, 지식 획득 소프트웨어)는 당시 관련 부처인 정통부의 미참여로 인한 기술력이 부족을 이유로 개발되지 못했다.    

h20_img19
▲ 2007년 12월 11일, 21세기 세종계획 성과 발표회 모습. (사진자료: 국립국어원)
문제점 투성인 1차 '21세기 세종계획'

1차 '21세기 세종계획'은 처음 계획한 사업목표를 달성하지 못했다. 1997년 당시 문화체육부와 과학기술처, 정보통신부 3개 부처가 공동으로 ‘우리말과 우리글을 바탕으로 하는 정보사회 건설’을 목표로 추진되었지만 사업 시행 초기에 과학기술처와 정보통신부가 갑자기 빠지면서 ‘언어학적인 관점에서 공통적으로 필요한 언어 정보 기반 구축’이라는 연구 목적 사업으로 변질됐다.  

이 두 부처가 빠지면서 각 부처에서 담당한 과제들이 모두 추진되지 못했고, 이로 인해 결국 ‘국어정보화’라는 큰 목표는 절름발이 상태로 진행이 되어 사업이 종료된 지금 현재도 국어정보화 구축의 실효성에 대한 논란이 있다.   

또한 기존에도 같은 연구가 있었다는 점이다. 이로 인한 중복 사업으로 국고 낭비 지적이 나왔다. 1992년부터 1999년까지 국립국어원에서는 100억원의 예산을 들여 표준국어대사전의 자료 등 ‘국어정보화 사업’을 추진한 바가 있었다. 이 사업으로 한글맞춤법, 표준어, 로마자표기법, 외래어 표기관련 자료 등 상당한 양의 기초 자료가 구축되어 있었을 것으로 추정된다. 

1999년 말에 구축한 국어정보보급관리시스템에 이미 한글맞춤법, 표준어, 로마자표기법, 외래어표기법 관련 일부 데이터베이스와 검색프로그램이 개발되었는데도 데이터베이스를 추가로 구축하거나 검색기능을 고급화하는 등 시스템을 보완하는 내용으로 사업을 하지 않고, 21세기 세종계획이라는 별도의 어문규정 검색시스템 구축 사업을 추진해 국고를 낭비했다는 비판이 있었다. 

특히 10년간 서울대, 고려대, 연세대 위주의 특정 대학에 연구비 지원 사업으로 변질됐다는 논란이 있었다. 세종계획이 추진되면서 정보화 저변 인구를 확대한다는 목표 달성을 위해 1차년도 사업의 경우에는 전국의 각 대학 소속 교수들이 연구자들로 참여했지만, 2차 년도부터 각 중요 과제들의 연구책임자 소속 대학의 연구자들만 참여하면서, 국어 정보화 사업이 일부 한정된 대학의 연구비 지원 사업으로 돌아간 것이다.
 
당시 사업 기간인 10년 동안 연구자들이 전국적인 분포를 보이면서 과제를 시행한 분야는 ‘한민족 언어 정보화’ 과제뿐이었다.

또, 세종계획의 참여자는 원래 국어국문학을 비롯한 인문학자 70%, 그리고 정보 처리나 자연언어 처리 전문가 30%가 참여하는 것으로 계획되었으나, 실제 연구진 대부분이 국어국문학을 비롯한 어문학자들만 참여해 폭넓은 국어정보화라는 처음 목표에 부합하지 못했다. 

‘21세기 세종계획’에 대해 “향후 재활용이 어렵다”고 결론지은 2007년 감리보고서는 먼저 “세부사업 과제별로 말뭉치 정제에 대한 오류율 목표가 존재하지만, 이를 검증할 수 있는 오류에 대한 정의 및 유형, 산출 기준이 되는 모집단 즉 분모 크기 산정에 대한 정의가 수립되어 있지 않기에 오류율 산정 자체가 불가능한 상태다”며, “또한 자체 검수 실적에 대한 증빙 산출물이 없기에 납품된 연구결과물의 품질상태를 확인할 수 없다”고 지적했다. 

특히 “기초자료 세부과제의 연구보고서 중 말뭉치 정제와 관련해 절차의 각 항목내용에 대한 상세 내용 부재로 인해 상세 수행 과정 파악이 안 되어, 절차의 적정성 검증이 불가능할 뿐만 아니라, 향후 본 과업이 되풀이 될 때 재활용이 어렵다”고 감리했다.  

당시 진 의원은 “국고 150억원을 투입하고도 실효성이 없는 부실 사업 의혹이 있다”며 “정부가 한글 세계화 사업을 국정의 주요 정책으로 추진하려고 준비 중인 상황에서 기존 사업에 대한 면밀한 성과 분석 없이 또 중복 추진될 우려가 있다”고 지적했다. 

이는 ‘21세기 세종계획’의 후속 사업인 2차 ‘세종계획’이 막 출발선에 들어선 지금도 유효한 내용이다. 환경 또한 많이 달라졌다. 1차 사업 당시에는 ‘디지털 라이제이션(Digital Lization)’ 시기이었다면, 현재는 ‘디지털 트랜스포메이션(Digital Transformation)’ 시대다. 여기에 걸 맞는 계획 수립과 정밀한 추진 전략이 매우 중요할 것으로 보인다.   

해당 기사는 계속 이어 갑니다.

관련기사 

[기획] AI 핵심기술 ‘한국어 자연어 처리’ 세종계획 1
– 국립국어원, 한국어 자연어처리 위한 2차 ‘세종계획’ 5년간 말뭉치 155억 어절 구축 추

[기획] AI 핵심기술 ‘한국어 자연어 처리’ 세종계획 3
– 4차산업 혁명은 과거 언어정보처리와는 달라 지적 능력 고도화와 인간과 인터페이스를 더 자연스러운 환경 구현해야

[김들풀 기자  itnews@itnews.or.kr]