An AI helps you summarize the latest in AI

AI, 논문을 ‘1줄 요약’해 줘

과학문헌 검색엔진인 시맨틱스칼라(Semantic Scholar)는 최첨단 자연어처리 기술을 활용, 연구자들을 위해 긴 논문을 요약해 주는 기능을 제공한다.

뉴스 : 과학문헌을 요약해 연구자들이 읽어야 할 최신 논문을 골라내는데 도움을 주는 인공지능(AI) 모델이 새로 나왔다. 알렌 AI연구소(AI2)는 11월 16일 자사 대표 제품인 AI 기반 과학논문 검색엔진 시맨틱스칼라(Semantic Scholar)에 이 기능을 도입했다. 사용자들이 검색하거나 저자 페이지로 이동할 때 모든 컴퓨터과학 분야 논문 밑에 한 문장의 ‘tl;dr’ 요약을 붙여준다. (tl:dr은 ‘too long; didn’t read’의 약자로 소셜미디어 등에서 너무 길어 읽기 힘든 글을 접할 때 흔히 쓰는 표현이다.) 이 작업은 최근 열린 ‘자연어처리를 위한 경험적 방법론’ (Empirical Methods for Natural Language Processing) 컨퍼런스에서도 발표되었다.

시맨틱스칼라의 tl;dr 기능 스크린샷

뉴스의 맥락 : 정보 과부하 시대를 맞아 AI를 활용한 텍스트 요약은 자연어처리(NLP) 분야의 주요 관심사가 되어 왔다. 여기에는 보통 2가지 접근 방식이 있다. 하나는 ‘추출(extractive)’로, 텍스트 뭉치에서 의미를 가장 잘 포착해 주는 문장 또는 문장집합을 찾는 것이다. 다른 하나는 ‘발췌(abstractive)’로, 새로운 문장을 생성하는 과정이 포함된다. NLP 시스템의 한계로 인해 추출 기술이 더 많이 쓰였지만 최근 몇 년간 자연어 생성 기술이 발전하면서 발췌 기술이 훨씬 더 좋은 성능을 보이게 되었다.

어떻게 이것이 가능했나 : AI2의 발췌 모델은 변환기(transformer) 라는 신경망 구조를 사용한다. 변환기는 2017년 등장했으며, 오픈AI의 GPT-3와 같은 NLP의 눈부신 도약을 주도했다. 연구진은 우선 일반 텍스트 기반(corpus of text) 으로 변환기를 훈련시켜 어느 정도 영어에 익숙하게 만들었다. 이 과정은 ‘사전학습 (pre-training)’으로 알려져 있으며, 변환기 를 매우 강력하게 만드는 요소 중 하나다. 이어 연구진은 요약이라는 특정 작업을 위해 모델을 미세 조정했다. 추가로 훈련을 시킨 것이다.

미세조정 데이터 : 연구진은 먼저 약 5,400쌍의 논문과 각각에 대한 1줄 요약을 짝지은 ‘SciTldr’라는 데이터세트를 만들었다. 질 좋은 요약문을 찾기 위해 이들은 오픈리뷰(OpenReview)라는 논문 공유 플랫폼을 활용했다. 오픈리뷰는 컨퍼런스에서 발표한 논문을 제출하는 플랫폼으로, 종종 연구자가 직접 자신의 논문을 요약한 시놉시스가 올라온다. 여기서 수천 개의 논문-요약문 쌍을 얻었다. 이어 주석자들을 고용해 동료평가자들이 이미 작성한 시놉시스를 더 검토하고 요약하게 했다.

이 5,400쌍의 데이터세트를 더 충실히 보완하기 위해 연구원들은 2만쌍의 과학논문과 그 제목으로 짝지은 2차 데이터세트를 마련했다. 이들은 제목 자체가 요약의 한 형태이므로 이 데이터가 결과 개선에 기여할 것으로 예상했다. 이는 실험을 통해 확인되었다.

tl;dr 기능은 모바일에서 논문을 빠르게 훑어보는 데에 특히 유용하다.| AI2

극단적 요약 : 요약 문제를 다룬 연구가 많지만, 이 연구는 특히 내용을 매우 짧게 줄일 수 있다는 점에서 두드러진다. SciTldr 데이터세트에 들어 있는 논문은 평균 5,000단어 분량이다. 시맨틱스칼라의 요약은 평균 21개의 단어로 이뤄진다. 논문이 원래 양보다 평균 238배로 압축되었다는 이야기다. 기존 가장 우수한 발췌 솔루션은 논문을 본래보다 평균 36.5배로 줄인다. 이 논문을 검토한 사람들은 시맨틱스칼라의 요약이 이전의 어떤 방법들보다 정확하고 정보를 제대로 전달한다고 결론지었다.

다음 단계 : 워싱턴대학(University of Washington) 교수이자 시맨틱스칼라 연구진 관리자인 대니얼 웰드(Daniel Weld)는 A12가 단시일 안에 모델을 개선하기 위한 여러 방법을 시도하고 있다고 밝혔다. 우선 컴퓨터과학 분야 외의 다른 논문도 처리하도록 모델을 훈련시킬 계획이다. 요약문이 제목과 너무 많이 겹쳐 효용이 떨어지는 문제도 해결해야 한다. 요약과 제목이 겹칠 때 벌칙을 부과하는 방식으로 훈련 과정을 업데이트해 이런 일이 벌어지지 않도록 할 계획이다.

장기적으로는 한 번에 여러 문서를 요약할 수 있게 하는 연구도 수행한다. 이는 새로운 분야에 진입하려는 연구자나 신속히 현안을 파악하려는 정책입안자들에게도 유용할 수 있다. 웰드는 “우리가 정말 하고 싶은 것은 개인화된 연구 브리핑을 만드는 것”이라며 “이를 통해 단지 한편의 논문이 아니라 이를테면, 특정 세부 영역 의 최신 진전 사항 6가지를 요약할 수 있다”라고 말한다.

미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.