A watermark for chatbots can expose text written by an AI

챗봇용 워터마크로 AI에서 생성된 텍스트를 구분할 수 있을까

AI가 생성한 텍스트에 워터마크를 삽입하는 기술은 교사들이 학생이 쓴 에세이의 표절 여부를 판별하고, 소셜미디어 플랫폼이 허위 정보를 퍼뜨리는 봇(bot)에 대항할 수 있도록 도와줄 수 있을 것이다.

인공지능(AI)이 생성한 텍스트에 보이지 않는 패턴을 의도적으로 삽입하여 현재 읽고 있는 단어를 사람이 썼는지 여부를 나타내는 단서로 활용할 수 있다.

이러한 ‘워터마크(watermark)’는 육안으로 볼 수 없지만, 컴퓨터는 이를 통해 해당 텍스트가 AI 시스템에서 생성되었을 가능성을 판별할 수 있다. 만약 워터마크가 대형 언어 모델에 적용된다면 이러한 언어 모델들로 인해 이미 발생한 문제 중 일부를 방지할 수 있을 것으로 보인다.

예를 들어 오픈 AI(OpenAI)가 지난해 11월 챗 GPT(ChatGPT)라는 챗봇을 출시한 후, 학생들은 이미 이 언어 모델을 사용하여 에세이를 작성하는 부정행위를 저지르기 시작했다. 뉴스 웹사이트인 씨넷(CNET)은 챗 GPT를 사용하여 기사를 작성했다가 표절 의혹에 휘말려 정정 기사를 발표하는 곤욕을 치렀다. 이와 같은 AI 생성 기사를 보도하기 전 해당 시스템에 워터마킹(watermarking) 방식을 도입한다면 이러한 문제를 해결할 수 있을 것이다.

이러한 워터마크는 이미 여러 연구에 활용되며 AI 생성 텍스트들을 거의 완벽하게 판별해냈다. 예를 들어 메릴랜드 대학교(University of Maryland) 연구원들은 자체 개발한 감지 알고리즘으로 메타(Meta)의 오픈 소스 언어 모델인 OPT-6.7B가 생성한 텍스트를 찾아낼 수 있었다. 해당 결과가 실린 논문에 대한 동료 평가는 아직 진행되지 않았으며, 사용된 워터마크는 2월 15일경에 무료로 공개될 예정이다.

AI 언어 모델은 단어를 한 번에 하나씩 예측하고 생성하는 방식으로 작동한다. 워터마킹 알고리즘은 각 단어가 생성될 때마다 언어 모델이 사용한 어휘를 ‘녹색 목록’과 ‘빨간 목록’으로 임의 분류한 다음 해당 언어 모델이 녹색 목록에 포함된 단어를 선택하도록 지시한다.

어떤 구절에 녹색 목록에 포함된 단어의 수가 많을수록 해당 텍스트는 기계에 의하여 생성되었을 가능성이 높다. 사람이 쓴 텍스트에 포함된 단어들은 더 임의적으로 분류되는 경향이 있다. 가령 ‘beautiful(아름다운)’이라는 단어에 대해 워터마킹 알고리즘은 ‘flower(꽃)’라는 단어를 녹색으로, ‘orchid(난초)’라는 단어를 빨간색으로 분류할 수 있다. 관련 연구에 참여한 메릴랜드 대학교의 톰 골드스타인(Tom Goldstein) 조교수는 워터마킹 알고리즘이 적용된 AI 모델은 ‘orchid’보다 ‘flower’라는 단어를 더 많이 사용할 가능성이 높다고 설명한다.

새로운 유형의 대형 언어모델인 챗 GPT는 사람이 쓴 것으로 착각할 정도로 매우 수준 높은 문장을 생성한다. 이러한 AI 모델들은 수많은 정보를 자신 있게 제시하지만 실제로는 거짓과 편견이 가득한 정보를 만들어내는 것으로 악명이 높다. 숙련되지 않은 일반인에게는 AI 모델이 쓴 글과 사람이 쓴 글을 구별하는 작업이 거의 불가능할 수 있다. 가공할 만한 AI 개발 속도는 성능이 더욱 뛰어난 신규 모델의 등장으로 인해 AI가 합성한 텍스트를 구별해 내기 위한 기존의 도구들이 금세 무용지물이 될 것임을 의미한다. 최신 AI 모델에 대적할 수 있는 새로운 안전장치를 두고 AI 개발자들 간에 끊임없는 경쟁이 이어지고 있다.

워터마킹 작업에 참여했던 메릴랜드 대학교의 존 키르헨바우어(John Kirchenbauer) 연구원은 “현재 상황은 일종의 무법 지대”라고 표현한다. 그는 워터마킹 도구가 AI 생성 텍스트를 구별하려는 노력에 힘을 실어주기를 바란다. 존은 그의 팀이 개발한 도구를 특정 단어 뒤에 어떤 단어가 올지 예측하는 모든 AI 언어 모델에서 작동하도록 조정할 수 있다고 주장한다.

AI 스타트업 회사 허깅 페이스(Hugging Face)의 정책 책임자인 아이린 솔레이먼(Irene Solaiman)은 이번 연구 결과에 대해 전망이 밝고 시기적으로도 의미가 있다고 평가했다. 그녀는 과거에 오픈 AI에서 AI 연구자로 근무하며 AI의 산출물 감지에 대해 연구한 경험이 있지만, 이번 연구에는 참여하지 않았다.

솔레이먼은 “모델의 적용 범위가 확대됨에 따라 AI 분야 외부에서 컴퓨터 과학 교육을 받지 않은 사람들이 AI 텍스트 생성 감지 방법을 이용할 필요성을 느끼는 일이 많아질 것”이라고 말한다.

그러나 이 새로운 방법에는 한계가 있다. 워터마킹은 텍스트를 생성한 사람이 처음부터 대형 언어 모델에 워터마킹 기능을 추가한 경우에만 작동한다. 오픈 AI는 워터마크를 포함하여 AI 생성 텍스트 감지 방법에 대한 연구를 진행 중인 것으로 알려졌지만, 구체적인 연구 내용은 대부분 공개하지 않고 있다. 오픈 AI는 일반적으로 외부에 챗 GPT의 작동 방식이나 훈련 방식에 대해 충분한 정보를 제공하지 않으며, 해당 언어 모델을 수정할 수 있는 권한에 대해서는 훨씬 더 폐쇄적인 입장을 취한다. 오픈 AI는 MIT 테크놀로지 리뷰의 의견 요청에 즉각적인 반응을 보이지 않았다.

솔레이먼은 새로운 연구 결과가 챗 GPT처럼 메타가 아닌 다른 기업이 만든 언어 모델에 어떻게 적용될지도 불분명하다고 말한다. 워터마크를 테스트하는 데 사용된 AI 모델 역시 챗 GPT와 같은 대중적인 언어 모델에 비해 규모가 작다.

누군가가 워터마크 방법을 무력화하려고 시도하는 다양한 시나리오를 검토하기 위해서는 추가적인 테스트가 이뤄져야 하지만, 연구자들은 이러한 감지 기술을 우회하려는 사람들이 가진 선택권이 다양하지 않다고 반박한다. 골드스타인은 “워터마크를 없애려면 텍스트의 한 구절에 포함된 단어 중 절반 정도를 없애야 한다”고 말한다.

솔레이먼은 “나라면 고등학생들을 과소평가하는 위험한 선택은 하지 않을 것”이라고 말하면서도 “대부분의 일반인은 이런 종류의 워터마크를 조작할 수 없을 것”이라고 덧붙였다.

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.