페이스북, 획기적인 AI 번역기술 개발

- 페이스북 AI 연구소, ‘2개 언어 쌍’ 없이 새로운 실시간 번역기술 개발

▲출처: Facebook Engineering Blog

페이스북이 학습 데이터가 필요 없이 기계 번역의 성능을 획기적으로 향상시킨 인공지능(AI) 기술을 개발했다. 앞으로 페이스북 번역이 구글을 능가할 것이라는 전망도 조심스럽게 나오고 있다. 

구글 번역의 경우 2016년 ‘신경망 기반 자동번역(NMT, Neural Machine Translation)’라는 시스템을 도입해 번역의 질이 크게 향상됐다. 하지만 기존 방식은 인간이 만든 ‘훈련 데이터(Labeled data)’를 필요로 한다는 단점이 있었다.

2015년 캐나다의 연구 기관인 MILA(Montreal Institute for Learning Algorithms)에 의해 기계 번역을 가능케 하는 인공지능 기술이 개발됐다. 구글 번역에 이용되는 MILA 신경망 기반 자동번역은 문장을 구문마다 번역하는 것이 아니라 한 번에 모든 문장을 번역해 문맥에 따라 변화하는 단어의 의미도 추론할 수 있다. 이에 구글 번역의 질은 놀라울 정도로 향상됐다. 

하지만 신경망 기반 자동번역은 번역하는 2개 국어 문장이 쌍으로 필요하다. 영어와 스페인어 사이의 번역을 하려면 ‘I like to eat’(영어)과 ‘나는 먹는 것을 좋아한다.’(한국어) 두 가지가 필요하다. 하지만 이러한 언어쌍이 충분하지 않은 영어와 파키스탄과 인도의 공용어 가운데 하나인 우르두어 간의 번역 등은 잘 작동하지 않는다.

그 이후로 번역 성능을 높이기 위해 연구자들은 이 같은 쌍을 필요로 하지 않는 UNMT(Unsupervised Neural Machine Translation) 개발에 몰두해 왔다.

▲출처: Facebook AI Research

2018년 8월 31일(현지시각), 세계적 인공지능 대가인 얀르쿤(Yann LeCun)이 이끄는 ‘페이스북 인공지능 연구소(FAIR, Facebook AI Research)’가 우르두어 영어 사이처럼 쌍이 적은 언어의 번역을 극적으로 향상 시킨 논문을 발표했다. 

기계학습 자동번역 결과 평가 기준의 하나인 BLEU(Bilingual Evaluation Understudy)에서 1BLEU 포인트가 ‘놀라운 성과’라고 평가된다. 그런데 페이스북의 새로운 기술은 10BLEU 포인트 이상의 향상 됐다는 것이다. 

참고로 기계학습 자동번역에서 성능을 평가하기 위한 방법으로 BLEU라는 방법을 사용한다. 요약하면, 하나의 영어 문장이 있다고 할 때 이 문장을 여러 사람이 번역한다. 이것을 각각 ref1, ref2라고 하고 기계번역으로 번역한 것을 mt라고 했을 때 mt의 결과를 unigram, bigram, trigram으로 각각 ref1, ref2에 몇 번 나타나는지를 계산하는 방식이다.

▲출처: Facebook AI Research

인공지능에 기계학습을 실행하게 하는 경우, 미리 준비해 둔 훈련 데이터를 학습시킬 필요가 있다. 이 훈련 데이터의 생성은 지금까지 인간이 수동으로 해야 하는 엄청난 노력이 필요했다. 

하지만 페이스북의 새로운 기술은 훈련 데이터의 작성을 필요 하지 않는다. 예를 들어 '고양이'라는 라벨이 붙은 훈련 데이터가 없어도 사진에 찍힌 것이 고양이라고 판단할 수 있다. 이 기술은 이미 잃어버린 과거의 언어로 쓰인 문서를 번역하거나, 아프리카 남동부 지역의 스와힐리어와 같은 자주 사용되지 않는 언어를 실시간으로 번역하는 것이 가능할 것으로 보여 진다. 

▲출처: Facebook AI Research

페이스북의 새로운 번역 기술의 핵심은 다음 3가지 기술을 결합한 것으로, 모두 과거에 개발된 것이다. 

▲ 단어 분할(Byte-pair encodings): 페이스북의 기술에서는 "hello"라는 단어 전체가 시스템에 제공하는 것이 아니라, hello를 ‘he’ ‘l’ ‘l’ ‘o’라는 4개의 파트로 나누어 시스템에 제공한다. 이는 ‘he(그)’라는 말을 몰라도 ‘he’의 번역이 가능하다. 단어를 더 짧은 단위로 분할해 실질적으로 알 수 없는 단어를 제거 할 수 있다는 의미다. 

▲ 언어 모델(Language model): 언어 모델의 품사와 통사론 구조, 단어와 단어, 문서와 문서의 관계를 공식화 한 것이다. 이를 통해 보다 자연스러운 문장을 판단 할 수 있으며, ‘how is you’를 ‘how are you’로 수정 할 수 있다. 

▲ 재귀 번역(Back-translation): 사용자가 영어에서 스페인어 번역하려고 할 때, 시스템은 신경망을 통해 스페인어에서 영어로 역 번역한다. 이를 사용해 합성 데이터를 생성해 데이터의 양이 증가하고 신경 번역 모델을 최적화하는 것이 가능하게 된다. 

페이스북의 새로운 시스템은 위 3가지 기술을 신경망 기반 시스템(NMT)과 구문 기반 시스템(PBSMT) 방식으로 결합했다. NMT와 PBSMT은 모두 단독으로 번역의 질을 높일 수 있지만, 두 가지 방식을 동시에 사용하면 매우 좋은 결과를 얻을 수 있다. 

한편, 페이스북은 무료로 코드를 깃 허브(Git Hub)에 공개하고 있어, 누구나 시스템을 구축할 수 있다. 

IT뉴스 / 김들풀 기자  itnews@