The key to smarter robot collaborators may be more simplicity

단순함은 똑똑한 로봇의 비결

험한 길을 헤매는 상황이 아니라면 자율주행차는 사람이 운전하는 차보다 더 민첩하게 운전하는 법을 배울 수 있다.

운전 중 작동되는 잠재의식 과정을 생각해보자. 주변 차량 정보를 수집할 때, 사람들은 차량 움직임을 예상하고 이러한 움직임에 어떻게 대응할지 상황을 봐가며 그때 그때 판단을 한다. 또한 다른 운전자가 당신의 행동을 어떻게 판단할 지 고려하여, 다른 운전자에게 어떤 영향을 줄 수 있는지 까지도 생각한다.

로봇이 우리 세계와 완벽하게 통합되려면, 로봇 역시도 그래야 한다. 최근 스탠포드대와 버지니아공대 연구진은 로봇이 이런 종류의 행동 모델링(Behavioral Modeling)을 수행하도록 하기 위한 새로운 기술을 제안했고, 로봇학습 연례 국제 컨퍼런스에서 발표한다. 로봇은 다른 에이전트의 움직임을 세세하게 포착하기보다 대충 요약하는 역할을 한다. 이렇게 되면 로봇은 복잡한 계산에 얽매이지 않고 다른 에이전트가 앞으로 취할 행동과 본인의 반응을 민첩하게 예측할 수 있다.

마음 이론(Theory of Mind)

로봇이 사람과 함께 일하도록 하는 기존의 방법은 심리학의 마음 이론에서 영감을 얻는다. 마음 이론은 자신과 타인의 마음 상태에 대한 이해, 즉 우리가 어린 시절 개발한 기술을 발전시킴으로써 서로 관여하고 공감한다는 것을 암시한다. 이 이론을 바탕으로 연구진은 로봇이 협력자들의 행동을 예측해서 기본 의도를 파악하도록 하는 모델 구축에 주력하고 있다.

스탠포드대 도사 사디(Dorsa Sadigh) 조교수는 이것이 비효율적이라고 생각한다며 다음과 같이 말했다. “인간 대 인간의 상호작용에서 사람들은 실제로 그렇게 안한다. 같이 테이블을 옮기려고 할 때, 사람은 믿음 모델링(Belief Modeling)을 하지 않는다. 테이블을 옮기는 두 사람은 상대방이 테이블을 밀려고 하는지 당기려고 하는지 같은 느낌처럼 간단한 신호에 의존한다. 사람이 함께 일할 때는, 훨씬 저차원적인 일만 확인하면 된다.”

이 아이디어를 활용하여, 로봇은 주변 에이전트의 행동을 아주 간단한 설명으로 저장할 수 있다. 예를 들면, 에어 하키 게임에서 로봇은 “오른쪽” “왼쪽” “가운데”라는 한 단어로 상대의 움직임을 저장할 수 있다. 그런 다음 이 데이터를 이용하여 두 개의 별도 알고리즘을 훈련시킨다. 머신러닝 알고리즘은 상대가 다음에 어디로 움직일지 예측하고, 강화학습(Reinforcement Learning)을 통해 어떻게 대응해야 하는지를 결정한다. 강화학습 알고리즘은 또한 자신의 반응을 토대로 상대가 어떻게 전략을 바꾸는지 파악하기 때문에 상대의 행동에 영향을 미치는 법을 배운다.

여기서 중요한 점은 훈련 데이터의 단순성인데, 덕분에 로봇은 모든 병렬 훈련(Parallel Training)을 그때 그때 수행할 수 있다. 좀 더 전통적인 접근방식은 중요한 방향뿐만 아니라 상대의 전체적인 움직임 경로에 대한 좌표도 저장 가능하다. “적을수록 좋다”라는 말이 직관에 어긋나는 것처럼 보이지만, 인간의 상호작용에 대한 사디 교수의 이론을 기억할 필요가 있다. 우리도 주변 사람을 대략적으로만 모델링하지 않는가.

연구진은 자율주행차 등 응용 분야 시뮬레이션과 현실 속 로봇 에어 하키 게임에서 이 아이디어를 테스트했다. 각각의 실험에서, 이 새로운 기술은 로봇이 주변 에이전트에 적응하도록 가르치는 기존 방법을 능가했다. 로봇은 또한 주변 에이전트에게 영향을 미치는 방법을 효과적으로 학습했다.

앞으로의 연구

앞으로 연구해야 할 문제들이 여전히 있다. 본 연구에 참여하지 않은 토론토대 제이콥 포스터(Jakob Foerster) 조교수는 “지금 연구에서는 로봇이 하는 모든 상호작용이 한정적임을 가정하고 있다”고 주장한다.

자율주행 시뮬레이션 훈련 중, 로봇차는 다른 차와 경계가 뚜렷한 상호작용을 단 한 차례만 겪은 것으로 연구진은 추정했다. 물론 운전은 그런 방식으로 이루어지지 않는다. 상호작용은 종종 연속적으로 발생하고, 자율주행차가 서로의 상호작용이 아닌 각각의 상호작용에서 학습하고 스스로 행동에 적응할 것을 요구한다.

“또 다른 문제는 이 방식이 협력자 행동 묘사에는 최고의 방법이라고 가정한다는 것”이라고 사디 교수는 말한다. 에어 하키 게임에서 로봇이 상대의 움직임을 설명하려면, 연구진은 직접 “오른쪽” “왼쪽” “가운데”라는 라벨을 만들어야 했다. 상호 작용이 복잡할 경우, 라벨이 항상 그렇게 분명히 정해지기는 어렵다.

그럼에도 불구하고 포스터 교수는 논문 기고에서 희망을 본다. “멀티에이전트 학습과 인간-AI 상호작용 간 격차 줄이기는 앞으로 상당히 중요한 연구분야이다. 이게 잘 해결되면 정말 기대가 크다”고 밝혔다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.