
‘찰칵!’ 인간이 보는 세상을 AI도 볼 수 있다면
전 세계의 많은 AI 모델 중 오픈AI의 GPT-3는 사람들의 상상력을 가장 많이 자극한다. GPT-3는 시, 이야기, 노래 등을 거의 바로 만들어 낼 수 있고, 그 결과물은 사람이 썼다고 생각될 정도로 뛰어나다. 하지만 GPT-3가 만들어 내는 글은 실제 지능이 아닌 속임수에 가깝다.
그럼에도 연구자들은 GPT-3를 만드는 데 사용된 기술이 더 진화된 AI의 출발점 일 수 있다고 믿는다. GPT-3는 방대한 양의 텍스트 데이터로 훈련된 인공 지능이다. 만약 동일한 기술을 텍스트와 이미지를 둘 다 사용해 훈련하면 어떻게 될까?
지금 앨런 인공지능연구소(AI2)는 새로운 연구를 통해 이 생각을 더욱 심도 깊게 연구 중이다. 연구자들은 캡션을 보고 이미지를 생성할 수 있는 새로운 텍스트-이미지 모델을 개발했다. 이 사진들은 생성적 적대 신경망(GANs) 모델이 만들어 낸 초현실적인 딥페이크(deepfake)와는 전혀 다른 불안하고 괴상해 보이는 사진이다. 하지만 더 일반화 가능한 지능과 어쩌면 더 똑똑한 로봇을 완성하기 위한 새로운 방향을 제시해 줄지도 모른다.
빈칸을 채우시오
GPT-3는 구글의 AI 모델 버트(BERT)의 성공으로 인기를 끌었던 모델 ‘트랜스포머’의 일부다. 버트가 나오기 전 언어 모델은 그리 성능이 좋지 않았다. 이전 모델들은 자동 완성 같은 애플리케이션에 유용할 정도의 예측력은 갖췄지만, 문법 규칙과 상식을 따르는 긴 문장을 만들기에는 부족했다.
버트는 ‘마스킹’이라 불리는 새로운 기술을 도입해 이 문제를 개선했다. 즉, 문장 속 몇몇 단어를 숨기고 AI에게 빈칸을 채우게끔 한다. 예를 들면 다음과 같다.
The woman went to the ___ to work out.
They bought a ___ bread to make sandwiches.
AI모델이 이러한 문제를 수백만 번 되풀이해 풀면 단어가 어떤 식으로 조합되어 문장이 되는지, 또 문장이 어떻게 모여 문단이 되는지 그 규칙을 알게 될 것이라는 전제였다. 그렇게 되면 문자를 해석하는 능력뿐 아니라 언어의 의미를 이해하는 능력까지 향상될 것이다. (구글은 현재 버트를 사용하여 검색 엔진에서 더 관련도 높은 검색 결과를 제공한다.) 마스킹이 매우 효과적인 방식이라는 사실이 입증되자, 연구팀은 다음과 같이 사진 캡션 속 단어를 숨겨 시각 언어 모델에 적용하려고 했다.

이번에는 AI 모델이 빈칸을 채우기 위해 주변의 단어와 사진 내용을 모두 볼 수 있었다. 이 과정을 수백만 번 반복하면서AI는 단어간 패턴뿐만 아니라 단어와 각 이미지 요소의 관계도 발견할 수 있었다.
그 결과가 바로 텍스트 설명을 시각 자료를 연결할 수 있는 AI 모델이다. 마치 아기들이 습득하는 단어와 눈에 보이는 사물을 연결 지을 수 있는 것처럼 말이다. 가령 AI 모델은 아래 사진을 보고 ‘필드 하키를 하는 여자들’ 같은 적절한 캡션을 만들 수 있다. 또는 ‘공’ 이라는 단어를 사진 속 원형 물체와 연결해 “공 색깔이 무엇입니까?” 같은 질문에 답할 수 있다.

JOHN TORCASIO / UNSPLASH
천 마디 말보다 한 장의 사진이 낫다
하지만 AI2 연구자들은 이들 AI 모델이 실제로 시각 세계라는 개념을 이해하는 능력이 있는지 알고 싶어 했다. 어떤 물체를 지칭하는 단어를 배운 아이는 그 단어를 떠올려 그 물체를 식별할 수 있을 뿐 아니라 물체가 존재하지 않더라도 그 단어를 듣고 물체를 그릴 수 있다. 그래서 연구자들은 AI모델에게 캡션을 주고 이미지를 생성하게끔 했다. 그러자 AI 모델은 사진 대신 모두 터무니없는 픽셀 형태를 만들어 냈다.

AI가 생성한 알 수 없는 이미지일 뿐이다.
이는 당연한 결과다. 텍스트를 이미지로 변환하는 것은 다른 방법보다 훨씬 어렵다. AI2 컴퓨터 시각팀 팀장인 아니 켐바비는 캡션이 사진 속 모든 요소를 설명하지는 않는다고 설명했다. 따라서 AI 모델은 세세한 부분을 채우기 위해 세상에 대한 다양한 상식을 이용해야 한다.
가령 ‘길 위를 걷는 기린’을 그리라고 하면, 이 길이 핑크색보다는 회색일 가능성이 높고 바다 옆보다는 풀밭 옆에 있을 가능성이 높다는 추론도 필요하다. 하지만 이 같은 정보는 전혀 명확히 설명되어 있지 않다.
그래서 켐바비와 동료 연구자 재민 조, 지아센 루, 한나네 하지시르지와 함께 마스킹에 대한 접근법을 수정해 이 모든 암시적 시각적 지식을 AI 모델에 가르칠 수 있는지 실험해 보기로 했다. 해당 사진에서 캡션의 가려진 단어를 예측하는 훈련뿐 아니라, 해당 캡션을 기반으로 사진 속 가려진 픽셀을 예측하는 훈련도 진행했다.
AI모델이 생성해 낸 최종 이미지는 실제 사진과 정확히 일치하지는 않는다. 하지만 중요한 점은 그 부분이 아니다. 고도의 시각적 개념, 즉 어린아이가 인간을 묘사하기 위해 막대 형상을 그리는 것과 동일한 수준의 능력을 갖췄다.
(여기서 모델을 직접 사용해 볼 수 있다https://visionexplorer.allenai.org/text_to_image_generation)

도시 중심부의 커다란 시계탑
컴퓨터 화면이 여러 개 놓인 재택 근무 사무실 모습
사람들이 오토바이를 타고 있다
완만한 경사로에서 스키를 타는 여성
두 사람이 소파에 앉아 비디오 게임을 하고 있다
곰이 길 위를 걷고 있다
이런 종류의 이미지를 생성할 수 있는 시각 언어 모델의 성능은 AI 연구가 상당히 진척되었음을 의미한다. 이는 AI 모델이 실제로 어느 정도 수준의 추상 능력이 있다는 것을 암시하는데, 추상 능력은 세상을 이해하는 기본적 능력이다.
장기적으로 이러한 진보는 로봇 공학에 영향을 미칠 수 있다. 로봇이 시각적 환경을 더 잘 이해하고 이를 전달하기 위해 언어를 더 자연스럽게 사용할수록 더 복잡한 작업을 수행해낼 것이다. 단기적으로 이러한 유형의 시각화는 연구자들이 ‘블랙박스’ AI 모델이 학습하는 내용을 더 잘 이해하는 데 도움을 준다고 하지시르지는 말한다.
연구팀은 앞으로 더 많은 실험을 통해 이미지 생성의 질을 높이고 AI 모델의 시각적, 언어적 어휘를 확장해 더 많은 주제와 사물, 형용사를 습득하게 할 계획이다.
“이미지 생성은 사라진 퍼즐 조각 같았습니다. 이를 가능하게 함으로써 우리는 AI 모델이 더 나은 묘사 기술을 습득해 세상을 더 잘 묘사하도록 만들 수 있습니다.” 루가 이렇게 설명했다.