A radical new technique lets AI learn with practically no data

급진적인 신기술, 데이터 없이도 AI 학습 가능케 해

"LO샷(less than one shot)" 학습은 모델에 대해 훈련된 사례가 적더라도 많은 개체를 식별하도록 하는 방법이다.

머신러닝에는 일반적으로 많은 사례가 필요하다. 어떤 인공지능 모델에게 말이라는 동물을 인지하게 하려면, 수천 장에 달하는 말 사진을 보여줘야 한다. 이러한 이유로 머신러닝에는 많은 컴퓨팅 자원이 필요하다. 머신러닝은 사람의 학습과는 상당히 다르다. 어린 아이에게 어떠한 물체를 인지하게 하려면, 물체에 대해서 몇 가지 또는 심지어 하나의 사례만을 보게 하면 된다.

사실, 아이들은 때때로 어떤 것을 식별하기 위해 아무런 예도 필요하지 않다. 말과 코뿔소의 사진을 보여주며 유니콘이 그 사이 어딘가에 있다고 하면, 그림책에서 신화 속의 동물을 처음 본다 하더라도 아이들은 알아볼 수 있다.

음…뭐 그런대로 괜찮군
MS 테크 / 픽사베이

캐나다 온타리오 워털루대에서 발표한 신규 논문에서 인공지능 모델도 LO샷을 할 수 있어야 한다고 제안한다. 이 과정은 연구원들이 “하나보다 적은” 즉, LO샷 학습이라고 부르는 과정이다. 인공지능 모델이 훈련받은 사례 개수보다 더 많은 물체를 정확하게 인식할 수 있어야 한다는 얘기다. 이는 사용된 데이터 세트가 더 커짐에 따라 점점 더 비싸지고 접근하기 어려워진 분야로서는 큰 문제가 될 수 있다.

LO샷 학습의 작동 방식

연구원들은 MNIST라고 알려진 대중적인 컴퓨터 비전 데이터 세트를 실험하면서 LO샷 개념을 처음 입증했다. 0부터 9까지 6만 개의 손으로 쓴 숫자 훈련 이미지가 담긴 MNIST는 현장에서 새로운 아이디어를 시연하는 데 자주 활용된다.

이전 논문에서, MIT 연구팀은 거대한 데이터 세트를 작은 데이터 세트로 “추출”하는 기술을 도입했고, 개념증명(proof of concept)의 방편으로, MNIST를 단 10개의 이미지로 압축했다. 이미지는 원본 데이터 세트에서 선택되지 않았지만, 전체 세트와 동일한 양의 정보를 포함하도록 세심하게 설계되고 최적화되었다. 그 결과, 10개의 이미지에서 단독 훈련했을 때, 인공지능 모델은 MNIST의 모든 이미지에서 훈련된 것과 거의 동일한 정확도를 달성할 수 있었다.

MNIST 데이터 세트 샘플 이미지
위키미디어
인공지능 모델로 손글씨 숫자를 94% 정확하게 인식할 수 있도록 훈련
가능한 MNIST에서 추출한 10개의 이미지
통저우 왕 등

워털루대 연구팀은 추출과정을 더 진행하고 싶어 했다. 6만 개의 이미지를 10개로 축소할 수 있다면, 5개까지도 가능하지 않을까? 연구팀이 착안한 비결은 여러 숫자가 섞인 이미지를 만든 다음 이를 하이브리드, 또는 “소프트” 라벨을 붙여 인공지능 모델로 공급하는 것이었다. (부분적으로 유니콘의 특징이 있는 말과 코뿔소를 생각해 보자)

이 논문의 주 저자인 워털루대 박사과정 일리아 수콜루츠키는 “숫자 3을 생각해보면 8처럼은 보이지만,

이 기사는 유료 구독자 전용 콘텐츠입니다.

유료 멤버십 플랜 보기