딥러닝, 인간과 공존하는 로봇 만든다: 와세다 대학교 오가타 테츠야 교수 인터뷰

딥러닝 기술로 진일보한 로봇의 동작 제어를 보여준 오가타 테츠야(Ogata Tetsuya, 尾形哲也) 와세다 대학교(早稲田大学) 교수를 만나 로봇공학에 딥러닝을 적용한 현재까지의 연구 성과를 살펴보았다.

딥러닝 기술이 이미지와 음성 인식에 놀라운 성능을 보여준 건 사실이지만, 로봇 시스템에는 아직 제한적으로 적용되고 있다. 오카다 테츠야 교수는 “딥러닝을 적용한 로봇 시스템은 주어진 환경의 변화를 정확히 예측하기 때문에 로봇 동작의 오류를 줄일 수 있다”면서 “오차를 줄이면서 인간과 실제로 공존하는 로봇을 만들기 위해서 노력하고 있다”고 밝혔다.

Q) 오가타 교수님 반갑습니다. 최근 AI와 로봇을 결합하려는 움직임이 가속화되고 있습니다. 현재 와세다 대학교 AI 로봇 연구소의 소장을 맡고 계시는데요. 전문 연구 분야를 소개해 주시죠.

저는 신경회로 모델과 로봇 시스템을 이용한 ‘인지 로봇공학’(Cognitive Robotics)을 연구해 왔고 역동적인 환경과 상호작용하는 기계지능에 관심이 많습니다. 구체적으로는 AI를 이용한 예측학습, 모방학습, 멀티모달의 통합이 연구 분야입니다. (지능형 동역학 구현 연구실(Intelligent Dynamics Representation Lab) 웹사이트는 https://ogata-lab.jp 입니다.) 와세다 대학교는 휴머노이드 로봇 개발에 오랜 역사를 가지고 있습니다. 와세다 대학교 이공학부가 세계 최초로 휴머노이드 로봇 ‘와봇1’(WABOT-1)을 개발했던 때가 1973년입니다. 와봇1은 인공 눈, 귀, 입을 가지고 있었고 일본어로 의사소통할 수 있었죠. 이후 많은 교수와 연구자들이 휴머노이드 로봇을 연구하면서 300개가 넘는 하드웨어가 개발되었습니다.

* ‘멀티모달’(multi modal)은 음성, 제스처, 이미지, 표정 등 다양한 시청각, 촉각 인터페이스를 통하여 정보를 주고받는 시스템을 의미한다.

Q) 현재 딥러닝은 이미지 인식과 자연어 언어 처리 분야에서 놀라운 성과를 보여주었습니다. 그러나 로봇 시스템에서는 여전히 제한적으로만 적용되고 있습니다. 로봇 공학에 딥러닝을 적용하면 더 스마트해지고 움직임도 정교해질까요? 

지도학습(supervised learning), 강화심층학습(deep reinforcement learning) 및 심층예측학습(deep predictive learning) 가운데 심층예측학습이 정교한 로봇 동작에 효과적이라는 것이 증명되었습니다. 모든 로봇 공학자는 강화학습이 로봇 훈련에 효과적일 거라고 생각하는 것 같습니다. 그렇지만 현실 세계에 적용할 수 있는 최적 모델이 필요합니다. 그러려면 많은 데이터가 필요하고요. 아무리 강화학습용 머신러닝 모델을 개발해도 현실 세계와 오차가 생깁니다. 그래서 저는 로봇 인지 개발을 위한 심층예측학습을 주목하고 있습니다. 

딥러닝을 로봇 시스템에 어떻게 적용할 것인가는 로봇 ‘인지’에서부터 시작합니다. 로봇에게 수건 접기는 매우 어려운 작업입니다. 수건을 접는 과정에서 물체의 형태가 변하기 때문이죠. 그런데 심층예측학습을 통해 로봇을 제어하면 하나하나의 동작을 완벽하게 프로그램하지 않더라도 센서에서 물체의 변화를 파악하고 예측 오차를 줄여 로봇 손의 움직임을 생성합니다. 신경망 로봇의 손과 수건이 역동적으로 연결되면 딥러닝으로 예측 오류를 줄일 수 있습니다. 예컨대, 로봇 손이 수건을 접을 때 수건의 모양, 위치, 색상이 바뀌어도 접는 동작을 수월하게 해낼 수 있는 거죠. 특정한 수건을 대상으로 사전에 훈련을 거치지 않아도 가능합니다. 

심층예측학습을 통해 수건과 책을 접는 로봇.
©Laboratory for Intelligent Dynamics and Representation

Q) 개발하신 AIREC(AI-driven Robot for Embrace and Care) 로봇은 어떤 특징이 있습니까? 인간과 교감이 가능한 스마트 로봇의 관건은 무엇입니까?

AIREC은 일본 과학기술진흥기구(JST)의 문샷(Moonshot) 프로젝트로 연구개발 자금을 지원받아서 개발된 휴머노이드 로봇 모델입니다. AIREC은 한 사람과 평생을 함께하는 스마트 로봇을 컨셉으로 하고 있습니다. 앞으로 일상생활뿐만 아니라 의료, 간호, 장기 요양 분야에도 적용될 것으로 기대를 모으고 있습니다. 스마트 로봇은 인간의 생활 방식을 충분히 이해하고 부드러운 동작을 정확히 해내야만 합니다. 와세다 대학교 AI 로봇 연구소는 일반 가정집처럼 꾸며져 있고 침실과 화장실, 부엌 등이 갖추어져 있습니다. 인간과 실제로 공존하는 로봇을 만들기 위해서입니다. AIREC 휴머노이드 로봇은 세계 최초로 초음파 검사를 해냈습니다. 탁자 위를 걸레로 부드럽게 닦고 인간과 가정생활 속에서 유연한 상호작용을 수행하며 20킬로그램의 물체를 집어 들어 옮기는 수준까지 발전했습니다.

Q) 수건 접기와 지퍼백 열기 같은 작업은 로봇이 하기에 어렵다고 했습니다. 딥러닝은 어떻게 돌파구를 마련했습니까?

인간에게는 간단한 작업이지만 로봇은 여전히 어렵습니다. 기계의 동작에는 명확한 규칙이 필요하기 때문이죠. 로봇의 구체적인 동작을 완벽하게 프로그래밍하기는 어렵습니다. 로봇에 수건 접는 작업을 시키려면 목적물의 모양이 어디에서 시작되고 끝나는지 확인해야 합니다. 게다가 목적물의 이미지 자체만으로는 충분하지 않고 촉각 등 센서 정보를 사용한 상호작용을 통해 목적물의 변화를 인식하도록 해야 합니다.  

‘지퍼백 열기’ 작업을 하는 로봇 시스템은 히타치(Hitachi, Ltd.)와 와세다 대학교가 협업으로 개발했습니다. 구겨지기 쉬운 지퍼백은 형태가 고정적이지 않은 목적물이죠. 따라서 이미지를 통한 사물의 인식이 아닌 목적물과 로봇이 상호작용을 거쳐 관심 포인트를 인지하도록 해야 했습니다. 물체의 모양이 연속적으로 변하므로 로봇 손이 지퍼를 열기 위해서는 형태 변화를 예측하고 관절의 움직임을 유연하게 바꾸어야 합니다. 다양한 형태의 물체들을 핸들링하기에 적합한 로봇 제어를 위해 딥러닝 기반 심층예측학습(deep prediction learning)을 사용했죠.

지퍼백의 모양 변화를 감지하고 지퍼를 여는 로봇.
©Laboratory for Intelligent Dynamics and Representation

Q) 지퍼백을 열 때 로봇에게 집중 포인트가 중요한 이유는 무엇입니까?

히타치와 공동 개발한 로봇은 지퍼백을 열기 위해 대상 물체의 관심 포인트를 정하고 촉각과 시각 센서로 물체 이미지 변화를 예측했습니다. 로봇 손의 신경망과 외부 환경의 변화를 연동함으로써 예측 오류를 낮출 수 있었습니다. 로봇은 콘볼루션 신경망(CNN, 사람의 시각 처리 방식을 모방)으로 추출한 전체 이미지가 아닌 순환신경망(RNN) 기반의 예측 모델이 생성한 이미지에 기반해 움직이게 됩니다.

로봇이 지퍼백을 열기 위해서는 수건 접기 작업처럼 물체의 변화 궤적에 따라 모션을 바꿔야 합니다. 이때 심층예측학습을 통해 예측 오류를 줄이는 것이 중요합니다. 그래서 로봇에 집중 포인트(attention point)를 판단하고 예측하는 프로세스를 적용합니다. 로봇은 비정형적인 물체의 변화를 인식할 때 전체 이미지가 아닌 집중 포인트만 남기고 불필요한 정보를 모두 지워버리는 방식을 사용하죠. 

Q) 딥러닝 기술로 로봇 손이 요리하고 지퍼백을 여는 등 정교한 손동작이 가능해졌습니다. 어떻게 구현한 것입니까?

저는 30년 이상 인지 로봇공학 분야를 연구하면서 네트워크 신경망과 로봇 시스템 간의 간격을 줄이는 데 많은 노력을 기울였습니다. 휴머노이드 로봇은 심층예측학습을 통해 주방에서 냄비의 내용물을 젖거나 에그 스크램블 요리를 할 수 있게 되었습니다. 프라이팬에서 가열되는 달걀의 변화를 시각 및 촉각 센서로 파악하고 온도를 조절한 결과, 에그 스크램블 요리를 태우지 않는 수준까지 발전했죠. 즉 로봇의 신경망과 외부 환경을 커플링 하여 예측 오류를 낮추자 정확한 동작이 가능해졌습니다. 

물체의 특징과 정보를 센서로 자동 추출하면 특별한 머신러닝 프로그래밍 없이 로봇은 뚜껑을 덮고 상자 끈을 풀고 요리 재료를 적절하게 다룰 수 있습니다. 딥러닝을 적용한 로봇 시스템은 생활에 필요한 유연한 동작이 가능하므로 고령화 및 저출산에 따른 노동력 부족을 해결해줄 겁니다.

©Laboratory for Intelligent Dynamics and Representation

Q) 심층예측학습 로봇의 장점은 무엇입니까? 그리고 앞으로 딥러닝이 로봇 동작에 어떤 성과를 낼 것으로 기대하십니까? 

앞으로 딥러닝은 로봇 제어와 동작 생성에 널리 응용될 겁니다. 2022년 사이언스 로보틱스에 실린 제 논문은 심층예측학습을 적용한 로봇이 예측오차를 실시간으로 계산하여 문을 열고 통과하는 작업을 보여줬습니다. 로봇은 문의 위치, 색상, 패턴 등 갑작스러운 변화에 대응하여 적절한 동작을 생성했습니다. 이는 로봇이 환경 변화에 반응하여 현실 세계에서 자율적으로 작동할 수 있음을 보여줍니다.  

사람이 일상적으로 하는 작업을 로봇의 동작으로 효과적인 수행이 가능하게 하려면 강력한 모델 설계와 거대한 학습용 데이터가 필요합니다. 그러나 조정과 적응이 필요하기 때문에 유지 관리에 상당한 비용이 소요되죠. 하지만 심층예측학습을 이용하면 로봇 동작을 위한 모델을 설계할 필요가 없고 복잡한 동작을 로봇 최적의 궤적으로 설정할 수 있습니다. 예측오차를 최소화하고 낮은 학습비용으로 복잡한 작업을 실생활에서 구현하는 방법이라고 할 수 있습니다. 

©Laboratory for Intelligent Dynamics and Representation

* 최은창은 옥스퍼드대법대방문학자, 과학기술정책연구원(STEPI) 펠로우, 예일대로스쿨의정보사회프로젝트(Yale ISP) 펠로우로 연구했다. 저서로《레이어모델》,《가짜뉴스의고고학》, 공저로《인공지능윤리와거버넌스》,《인공지능권력변환과세계정치》, 《20개의핵심개념으로읽는디지털기술사회》 등이있다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.