
게임으로 AI에게 설득하는 법을 가르치다
텍스트 기반 어드벤처 게임에서 캐릭터와 대화를 통해 퀘스트(게임에서 수행해야 하는 미션)를 완료하는 AI가 스스로 게임을 진행하는 방법 뿐만 아니라 다른 캐릭터에게 일을 하게끔 하는 방법도 터득했다. 이 시스템으로 기계가 언어를 사용하여 목표를 달성하는데 한걸음 더 가까이 다가가게 되었다.
무의미한 글들 : GPT-3같은 언어 모델은 사람이 쓴 문장을 잘 따라하고, 이야기, 가짜 블로그, 레딧(Reddit) 게시물을 아주 잘 만들어낸다. 그러나 이렇게 많이 만들기만 해서는 텍스트 생성이 가능함을 보여주는 것 외에는 큰 의미가 없다. 언어를 사용할 때, 사람은 언어를 도구처럼 자유자재로 활용한다. 말로 설득하고 명령하며 조종한다. 다른 사람을 웃게도 하고 울게도 한다.
서로 결합하기 : 단어를 사용하는 AI를 만들기 위해, 애틀란타 조지아공대와 페이스북 AI 연구소 연구진은 자연어처리와 강화학습 기술을 결합했고, 이를 통해 머신러닝 모델은 특정 목표 달성을 위해 행동하는 법을 배운다. 두 분야 모두 몇 년 간 엄청나게 발전했지만, 서로 겹치는 부분은 거의 없었다.
단어 게임 : 이 문제에 어떻게 접근할 것인가? 연구진은 2019년 페이스북이 인간과 AI간 의사소통을 연구하기 위해 개발한 텍스트 기반 멀티플레이어 게임 라이트(LIGHT)에서 시스템을 훈련시켰다. 이 게임은 수천 개의 크라우드소싱 사물, 캐릭터, 장소로 가득 찬 판타지 세계를 배경으로 한다. 스크린에 나오는 텍스트(On-screen Text)를 통해 설명과 상호작용이 이뤄진다. 플레이어(사람 또는 컴퓨터)는 ‘마법사 껴안기(Hug Wizard)’, ‘드래곤 치기(Hit Dragon)’, ‘모자 없애기(Remove Hat)’와 같은 명령을 입력하여 게임하고, 챗봇이 조종하는 캐릭터와 대화도 가능하다.
드래곤 퀘스트 : AI에게 게임을 할 이유를 설명하기 위해, 연구진은 라이트 원래 버전에 포함되지 않은 약 7,500개의 크라우드소싱 퀘스트를 추가했다. 연구진은 지식 그래프(Knowledge Graph: 주어-동사-목적어 관계 데이터베이스)도 만들어, “친구일 때만 상인은 가드를 신뢰한다”는 원칙 등 게임 세계와 캐릭터 간 연관성에 대한 일반적 지식을 AI에 제공했다. 게임에는 현재 퀘스트(예: “드래곤이 얻은 제일 큰 보물더미 쌓기”)와 이의 완료를 위해 수행할 액션(예: “산으로 가기”와 “기사 잡아먹기”)이 있다.
부드럽게 설득하기 : 성공적인 수행을 위해, 연구진은 언어만을 사용해서 퀘스트를 완수하도록 AI를 훈련시켰다. 액션 실행을 위해서, 해당 액션에 대한 명령을 입력하거나 다른 캐릭터와 대화하여 같은 목적을 달성할 수 있다. 예를 들면, 만약 AI가 칼과 같은 무기가 필요하면 무기를 직접 획득하게 할 수도 있고, 칼을 달라고 다른 캐릭터를 설득할 수도 있다.
아직 이 시스템은 장난감 수준이다. 태도도 무뚝뚝하다. 양동이가 필요하면 “양동이 좀 줘봐. 안주면 우리 고양이가 너를 잡아먹을 거야!”라고 해버린다. 그러나 자연어처리와 강화학습 결합은 흥미로운 시도이자 기술적 진전이다. 이 결합으로 논쟁과 설득이 가능한 성능 좋은 챗봇이 나올 수 있을 뿐만 아니라, 언어로 가득찬 세계가 어떤 식으로 돌아가는 지 훨씬 더 잘 이해하는 챗봇도 등장할 수 있다.