To see what makes AI hard to use, ask it to write a pop song

대중음악 만들기는 AI에게 어려운 과제

AI는 통제가 쉬워야 한다. 사람과 기계가 한 팀을 이룬 노래경연대회에서 AI의 개선점을 찾았다.

“집에 온걸 환영해 오 오 오 세상은 아름다워.” 그렇게 귀에 착 감기는 가사는 아니다. 그런데 “세상은 아름다워(Beautiful the World)”를 여섯 번 듣고 나니 후렴은 머리에 쏙 들어오고 발은 저절로 춤을 춘다. 유로비전 노래, 코알라, 쿠카부라 울음소리를 데이터 세트로 AI가 만들어내는 멜로디치고 나쁘지 않다.

지난 5월, “세상은 아름다워”는 네덜란드 방송사 VPRO가 개최한 인공지능 노래 대회에서 우승을 차지했다. 전세계 13개 팀이 인공지능의 도움으로 히트곡을 만들어 참가했다.

1위를 차지한 언캐니밸리(Uncanny Valley)는 호주 출신 음악인들과 컴퓨터 과학자들로 구성된 팀으로, 사람이 만든 노래에 AI 기술을 접목시켰다. 이번 대회 심사위원인 구글 브레인(Google Brain)의 안나 후앙(Anna Huang)은 “신나는 노래였다. 혼연일체의 노력이 정말 빛났다”고 평했다.

AI의 단기적인 유용성은 인간과 기계가 각자 장점을 발휘하며 함께 일하는 콜라보를 통해 나올 것이라고 믿는 사람이 많다. 구글 브레인에서 인간과 컴퓨터의 상호작용을 연구하며 후앙과 같이 근무하는 캐리 케이(Carrie Cai)는 “때로 인공지능은 도구에 불과한 조수일 수 있다. 아니면 같이 일하는 동료일 수도 있고, 작업실의 작곡가일 수도 있다. 우리를 레벨업 시킬 수도, 초능력자로 만들 수도 있다. 모차르트와 작곡하는 기분이 들 수도 있다”고 했다.

하지만 이런 일이 실제로 가능하려면, AI 도구는 사용과 통제가 편해야 한다. 이번 인공지능 노래 대회는 어떻게 하면 인공지능을 쉽게 사용하고 통제할 수 있는 지를 잘 보여주는 좋은 시험대가 되었다.

구글 브레인의 후앙, 케이, 동료들은 다른 팀이 어떤 다양한 전략을 사용하여 AI와 콜라보했는지 검토했다. 사람들은 기계에게 본인들이 원하는 것을 주문했고, 결국 해결책과 꿀팁이 도출된 경우가 많았다. 연구팀은 AI도구를 개선해서 더 수월한 협업이 가능한 여러 방법을 찾아낸다.

대형 AI 모델은 소통이 어렵다는 점이 문제였다. 대형 모델은 노래 초안을 그럴듯하게 만들 수는 있다. 그러나 다음 단계를 진행하도록 피드백을 제시할 방법이 없었다. 사람이 중간에 끼어들어 노래를 약간 수정하거나, 더 기분 좋은 멜로디를 만들도록 명령할 수 없었다.

결국 대부분의 팀은 화음이나 멜로디처럼 노래의 특정 부분을 만드는 작은 모델을 사용하여, 화음이나 멜로디를 직접 이어 붙였다. 언캐니밸리는 알고리즘을 사용해 서로 다른 AI가 만든 가사와 멜로디를 매칭했다.

또 다른 팀인 다다보츠x포트레이트XO(Dadabots x Portrait XO)는 후렴을 두 번 반복하고 싶지 않았지만, 다음 단계를 바꿀 방법을 찾지 못했다. 결국, 다다보츠x포트레이트XO는 7개 모델을 활용했고 원하는 곡을 얻기 위해 다른 결과를 조합했다.
마치 퍼즐 맞추기 같았다고 후앙은 말한다. “너무 어려웠다고 느낀 팀도 있었고, 원재료와 색색의 퍼즐 조각이 너무 많아서 짜릿했다고 생각한 팀도 있었다.”

언캐니밸리는 코알라, 쿠카부라, 태즈매니아 데빌 울음소리로 훈련받은 AI 모델이 만든 멜로디를 포함한 노래 재료를 준비했다. 그리고 나서 팀원들은 여러 재료를 조합했다.

멜버른 RMIT대 컴퓨터학자이자 언캐니밸리 멤버인 산드라 유이트덴보거드(Sandra Uitdenbogerd)는 “작곡 실력은 별로지만, 노래는 엄청 많이 만드는 괴짜가 있는 것 같다. 우리는 그 중에 우리가 할 수 있는 비트를 선택한다”고 언급했다.
협업이기 보다는 타협이었다. “솔직히, 사람도 똑같이 그렇게 잘 할 수 있었을 거라고 생각한다”고 덧붙였다.

생성형 AI(Generative AI) 모델은 이미지 생성시 단색이나 픽셀 수준으로 결과물을 생성한다. 생성형 Al 모델은 더 큰 그림을 인식하지 못한다. 반면에 사람은 일반적으로 절, 후렴, 노래가 어떻게 만들어지는지를 고려하여 작곡한다. 케이는 “AI가 실제 만들어내는 결과물과 우리가 생각하는 방식에는 차이가 있다”고 말한다.

케이는 더 쉽게 공동 작업이 가능하도록 AI 모델을 바꾸고 싶어한다. “그렇게 되면 사용자의 통제력을 상당히 높일 수 있을 것 같다”고 주장한다.

비단 음악인과 예술가만이 혜택을 볼 수 있는 것은 아니다. AI 사용이 쉬워지면, 사람들은 결과물과 소통하는 법을 더 많이 알게 되고, 치안 유지에서 건강 관리에 이르기까지 AI는 모든 곳에서 더욱 신뢰를 받게 될 것이다.

“의사에게 직접 AI를 조종할 수 있는 도구를 준다면, 진료시 AI를 사용하려는 의향이 정말 생길 수도 있겠다는 것을 알았다”고 케이는 말한다.


미리보기 3회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.