How role-playing a dragon can teach an AI to manipulate and persuade

게임으로 AI에게 설득하는 법을 가르치다

텍스트 기반 어드벤처 게임에 자연어처리와 강화학습을 결합하면 기계에게 언어를 도구로 사용하는 방법을 알려줄 수 있다.

텍스트 기반 어드벤처 게임에서 캐릭터와 대화를 통해 퀘스트(게임에서 수행해야 하는 미션)를 완료하는 AI가 스스로 게임을 진행하는 방법 뿐만 아니라 다른 캐릭터에게 일을 하게끔 하는 방법도 터득했다. 이 시스템으로 기계가 언어를 사용하여 목표를 달성하는데 한걸음 더 가까이 다가가게 되었다.

무의미한 글들 : GPT-3같은 언어 모델은 사람이 쓴 문장을 잘 따라하고, 이야기, 가짜 블로그, 레딧(Reddit) 게시물을 아주 잘 만들어낸다. 그러나 이렇게 많이 만들기만 해서는 텍스트 생성이 가능함을 보여주는 것 외에는 큰 의미가 없다. 언어를 사용할 때, 사람은 언어를 도구처럼 자유자재로 활용한다. 말로 설득하고 명령하며 조종한다. 다른 사람을 웃게도 하고 울게도 한다.

서로 결합하기 : 단어를 사용하는 AI를 만들기 위해, 애틀란타 조지아공대와 페이스북 AI 연구소 연구진은 자연어처리와 강화학습 기술을 결합했고, 이를 통해 머신러닝 모델은 특정 목표 달성을 위해 행동하는 법을 배운다. 두 분야 모두 몇 년 간 엄청나게 발전했지만, 서로 겹치는 부분은 거의 없었다.

단어 게임 : 이 문제에 어떻게 접근할 것인가? 연구진은 2019년 페이스북이 인간과 AI간 의사소통을 연구하기 위해 개발한 텍스트 기반 멀티플레이어 게임 라이트(LIGHT)에서 시스템을 훈련시켰다. 이 게임은 수천 개의 크라우드소싱 사물, 캐릭터, 장소로 가득 찬 판타지 세계를 배경으로 한다. 스크린에 나오는 텍스트(On-screen Text)를 통해 설명과 상호작용이 이뤄진다. 플레이어(사람 또는 컴퓨터)는 ‘마법사 껴안기(Hug Wizard)’, ‘드래곤 치기(Hit Dragon)’, ‘모자 없애기(Remove Hat)’와 같은 명령을 입력하여 게임하고, 챗봇이 조종하는 캐릭터와 대화도 가능하다.

드래곤 퀘스트 : AI에게 게임을 할 이유를 설명하기 위해, 연구진은 라이트 원래 버전에 포함되지 않은 약 7,500개의 크라우드소싱 퀘스트를 추가했다. 연구진은 지식 그래프(Knowledge Graph: 주어-동사-목적어 관계 데이터베이스)도 만들어, “친구일 때만 상인은 가드를 신뢰한다”는 원칙 등 게임 세계와 캐릭터 간 연관성에 대한 일반적 지식을 AI에 제공했다. 게임에는 현재 퀘스트(예: “드래곤이 얻은 제일 큰 보물더미 쌓기”)와 이의 완료를 위해 수행할 액션(예: “산으로 가기”와 “기사 잡아먹기”)이 있다.

부드럽게 설득하기 : 성공적인 수행을 위해, 연구진은 언어만을 사용해서 퀘스트를 완수하도록 AI를 훈련시켰다. 액션 실행을 위해서, 해당 액션에 대한 명령을 입력하거나 다른 캐릭터와 대화하여 같은 목적을 달성할 수 있다. 예를 들면, 만약 AI가 칼과 같은 무기가 필요하면 무기를 직접 획득하게 할 수도 있고, 칼을 달라고 다른 캐릭터를 설득할 수도 있다.

아직 이 시스템은 장난감 수준이다. 태도도 무뚝뚝하다. 양동이가 필요하면 “양동이 좀 줘봐. 안주면 우리 고양이가 너를 잡아먹을 거야!”라고 해버린다. 그러나 자연어처리와 강화학습 결합은 흥미로운 시도이자 기술적 진전이다. 이 결합으로 논쟁과 설득이 가능한 성능 좋은 챗봇이 나올 수 있을 뿐만 아니라, 언어로 가득찬 세계가 어떤 식으로 돌아가는 지 훨씬 더 잘 이해하는 챗봇도 등장할 수 있다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.