The original startup behind Stable Diffusion has launched a generative AI for video

스테이블 디퓨전 개발사, 새로운 영상 생성 AI 공개

스테이블 디퓨전의 초기 버전 개발사로 알려진 런웨이가 새로운 AI 모델 ‘젠-1(Gen-1)’을 공개했다. 젠-1은 기존의 영상이나 영화 클립에 시각적 스타일을 적용해 새로운 영상을 만들어 준다.
3D 모델(좌측 하단)을 젠-1으로 생성한 예시 – 런웨이 제공

생성형 AI 스타트업 런웨이(Runway)가 텍스트 입력이나 참조 이미지의 특정 스타일을 적용해 기존의 영상을 새로운 영상으로 변환할 수 있는 AI 모델을 선보였다. 런웨이는 지난해 큰 화제를 모은 텍스트-이미지(text-to-image) 모델 스테이블 디퓨전(Stable Diffusion)을 공동 개발한 회사다. 

이 소프트웨어의 기능은 런웨이가 웹사이트에 올린 ‘젠-1(Gen-1)’의 데모 영상을 통해 확인할 수 있다. 데모 영상에서는 거리를 걷는 사람들이 클레이 인형 애니메이션으로, 책상에 쌓아 둔 책들이 도시의 야경으로 바뀐다. 런웨이는 젠-1이 이미지 생성 AI 스테이블 디퓨전의 영상 버전이 되길 기대한다. 런웨이의 CEO이자 공동 설립자인 크리스토발 발렌수엘라(Cristóbal Valenzuela)는 “지난해 우리는 이미지 생성 모델의 폭발적인 인기를 확인했다. 올해는 영상 생성 모델의 해가 될 것이라 믿는다”고 말했다. 

2018년 설립된 런웨이는 수년 동안 AI 기반 영상 편집 소프트웨어를 개발해왔다. 런웨이가 개발한 제품들은 주류 영화 및 TV 프로그램 제작사뿐만 아니라 틱톡커와 유튜버들도 애용한다. 미국의 토크쇼 <더 레이트 쇼 위드 스티븐 콜베어(The Late Show with Stephen Colbert)>의 제작진들은 그래픽 편집을 위해 런웨이의 소프트웨어를 사용했다. 그리고 영화 <에브리씽 에브리웨어 올 앳 원스(Everything Everywhere All at Once)>의 시각효과 팀도 특정 장면을 연출하기 위해 런웨이의 기술을 사용했다. 

2021년, 런웨이는 독일 뮌헨 대학교의 연구진과 협력해 스테이블 디퓨전의 초기 버전을 개발했다. 영국의 스타트업 스태빌리티AI(Stability AI)는 이 초기 버전을 더 많은 데이터로 학습시키기 위한 컴퓨팅 비용을 제공하면서 중도에 개입했다. 그리고 2022년, 스태빌리티AI가 스테이블 디퓨전을 주류 기술로 끌어올리면서 이 연구 프로젝트는 순식간에 세계적인 유행으로 바뀌었다. 

현재 런웨이와 스태빌리티AI는 더 이상 협력관계가 아니다. 최근 게티이미지(Getty)는 스태빌리티AI가 스테이블 디퓨전의 학습 데이터에 자사의 이미지를 무단으로 도용했다며 법적 대응에 나섰다. 그리고 런웨이는 이 사건에서 최대한 거리를 유지하려 하고 있다. 

런웨이 제공

젠-1은 런웨이의 새로운 시작을 상징한다. 젠-1은 지난해 말 공개되었던 메타의 메이크어비디오(Make-a-Video)와 구글의 페나키(Phenaki) 등 ‘텍스트-비디오(text-to-video)’ 모델의 계보를 잇는다. 텍스트를 입력하면 짧은 영상 클립을 생성하는 메이크어비디오와 페나키는 다음 단계의 AI를 엿볼 수 있게 해준 실험적 모델이었다. 젠-1은 구글이 최근 공개한 생성형 AI 드림믹스(Dreamix)와도 유사하다. 드림믹스는 기존 영상에 특정 스타일을 적용해 새로운 영상을 만든다. 그러나 젠-1의 데모 영상을 보면 기존의 다른 AI 모델들보다 생성된 영상의 품질이 훨씬 뛰어나다. 영상의 길이도 훨씬 긴데 이는 젠-1이 기존의 영상을 변환하는 방식이기 때문이다. (참고로 런웨이는 이른 시일 내 젠-1의 기술적인 세부 사항을 웹사이트에서 공개한다고 밝혔다.) 

메타나 구글과 달리 런웨이가 실제 고객을 염두에 두고 소프트웨어를 개발한 점도 주목할 만하다. 발렌수엘라 CEO는 “영상 제작자 커뮤니티와 긴밀한 협력하에 개발된 최초의 모델”이라며 “영화 제작사와 VFX 에디터가 편집 작업에 사용하는 다년간의 기술 노하우를 담았다”고 강조했다. 

런웨이의 웹사이트를 통해 클라우드에서 실행되는 젠-1은 현재 허용된 소수의 인원만 사용할 수 있다. 그러나 런웨이는 몇 주 내에 대기 명단에 오른 모든 사람이 사용할 수 있도록 할 예정이다. 

지난해 생성형 AI의 폭발적인 확산은 강력한 창의성 도구를 처음으로 손에 넣은 수백만 명의 사람이 그들의 제작 결과를 공유한 덕분에 이뤄졌다. 발렌수엘라는 젠-1도 크리에이티브 전문가들이 사용하면서 영상 분야에서 스테이블 디퓨전처럼 강력한 영향력을 발휘할 수 있길 기대한다. 

발렌수엘라는 “AI가 장편 영화를 제작하는 미래도 머지않았다. 이제 막 생성되기 시작한 콘텐츠들은 향후 우리가 온라인에서 보게 될 콘텐츠의 대부분을 차지하게 될 것이다”라고 말했다. 

미리보기 2회1회

MIT Technology Review 구독을 시작하시면 모든 기사를 제한 없이 이용할 수 있습니다.