Facebook’s new polyglot AI can translate between 100 languages

페이스북, 100개 언어 번역하는 다국어 AI 개발

페이스북은 연구자들을 위해 다양한 자동화 및 머신러닝 기법의 정점인 이 인공지능 모델을 오픈소스 방식으로 공개했다.

뉴스 : 페이스북은 100가지 언어 가운데 어느 것이든 서로 번역할 수 있는 인공지능 언어 모델 M2M-100을 오픈소스로 공개했다. 이 AI 모델은 4450개의 조합 가능한 언어 쌍 중에서 1100개를 바로 번역할 수 있다. 이는 매개 언어로 활용하는 영어에 크게 의존하는 기존의 다국어 AI 모델과 차별적인 부분이다. 예를 들어 중국어-프랑스어 번역의 경우, 일반적으로 중국어에서 영어를 거친 뒤 영어에서 프랑스어로 번역이 이루어진다. 이 과정에서 오역 확률은 높아질 수밖에 없다.

데이터 큐레이션 : M2M-100은 75억개의 문장 쌍으로 학습되었다. 이러한 대규모 데이터를 확보하기 위해 연구진은 자동 큐레이션에 상당 부분 의존했다. 웹 크롤러로 웹에서 수십억 개의 문장을 수집하고, ‘패스트텍스트’(FastText)라는 다른 언어 모델을 통해 무슨 언어인지 식별하였다. (여기에 페이스북 데이터는 일절 사용하지 않았다.) 이후 페이스북 AI 연구소가 앞서 개발한 비지도학습 방식의 ‘LASER 2.0’이라는 프로그램을 사용해 여러 언어의 문장을 의미에 따라 서로 짝지었다.

LASER 2.0은 대규모의 비정형 문장 데이터 세트에서 ‘임베딩’ (embedding)을 만든다. 각 언어의 활용 가능한 문장 샘플로 학습하고, 이들이 얼마나 자주, 얼마나 밀접하게 쓰였는지를 바탕으로 관계를 지도처럼 나타낸다. 이러한 임베딩은 머신러닝 모델이 각 문장의 의미를 파악하도록 도우며, 이는 다시 LASER 2.0이 다른 언어로 되어 있으나 같은 의미를 지닌 문장들을 자동적으로 짝지을 수 있도록 한다.

언어 짝짓기 : 연구진은 가장 요청이 잦을 것으로 여겨지는 언어 조합에 초점 을 맞췄다. 같은 지역에 사는 사람들은 더 많이 소통할 것이라는 전제 하에 언어들을 언어학, 지리, 문화적 유사성 등에 따라 그룹 지었다. 예를 들어, 한 언어 그룹은 벵갈어, 힌디어, 타밀어, 우르두어 등 인도에서 가장 널리 쓰이는 언어들로 이루어져 있다. 그런 다음 LASER 2.0은 각 그룹 내 가능한 모든 언어 쌍을 대상으로 검색한다.

지속적인 도전 : 이 프로젝트의 수석 연구원인 안젤라 팬 (Angela Fan)에 따르면, 아프리카나 동남아시아 같은 곳에서 쓰이는 언어는 여전히 번역 품질이 열악하다. 웹에서 확보할 수 있는 이들 언어 데이터가 너무 적기 때문이다. 또 웹에서 얻는 데이터에 크게 의존하는 현실에서, 언어 데이터에 내재된 성차별, 인종주의, 기타 차별과 편견을 식별하고 제거하는 기술 개발도 필요하다. 현재 연구자들은 심각한 문제를 가진 표현들을 걸러내기 위해 비속어 필터를 사용하고는 있지만, 대부분 영어에만 적용된 상황이다.

연구 목적일뿐 : 페이스북은 이 모델을 자사 제품에 사용할 계획은 현재 없다. 팬 연구원은 M2M-100은 연구 목적을 위해 만든 것이라고 말했다. 그러나 궁극적인 목적은 이 모델을 계속 개선해 페이스북의 번역 능력을 높이고 사용 분야를 확대하는 것이다 . 이 모델을 사용자의 모국어로 포스트를 번역하는 등의 사용자 커뮤니케이션이나 문제 콘텐츠 관리 (contents moderation) 등에 활용할 수도 있을 것이다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.