그림만 그리면 사람이 살아나는 AI기술

- NVIDIA와 MIT 연구팀 ‘비디오 - 비디오 합성(Video-to-Video Synthesis)’ AI 기술 ‘vid2vid’ 개발

해리포터의 지팡이를 훔치는 것과 같이 연필로 동물이나 음식을 그리면  사물이 그림 밖으로 나와 현실 세계에 존재하는 영화 같은 이야기가 현실이 됐다.

NVIDIA와 MIT의 연구팀은 최근 동영상에 존재하지 않는 사물과 배경을 다른 것으로 새로 생성 대체할 수 있는 ‘비디오 – 비디오 합성(Video-to-Video Synthesis)’ 인공지능(AI) 분야에서 획기적인 기술인 ‘vid2vid’가 개발됐다. 

연구팀이 개발한 ‘vid2vid’가 장면의 모든 요소를 ​​변경해 얼마나 생생한 HD 비디오 영상을 생성했는지 다음 동영상을 보면 잘 알 수 있다. 앞으로 vid2vid’을 영화 제작에 사용하는 경우 1년에 수천 개의 영화를 찍는 것은 문제가 되지 않는다는 이야기다.

화면 요소를 색으로 구분된 영상이 있으면 이를 바탕으로 새로운 거리, 차량, 건물 및 거리의 녹색 식물이 자동으로 풍경이 생성된다. 

거리 풍경 경우 도로 양쪽에 있는 모든 건물을 나무로 바꾸면 숲 공원에서 운전하는 느낌이 들고, 아니면 거리의 나무를 건물로 바꾸어 놓으면 오래된 유럽 ​​같은 분위기의 건물들 속에서 여러 운전하는 모습이 재현된다. 이 모두 ‘vid2vid’ 기술이 만든 것이다. 

간단한 스케치로 풍부하고 자연스럽게 움직이는 고해상도 얼굴을 만들 수 있다. 대충 얼굴 윤곽을 그리면 그에 맞는 얼굴 특징과 머리 모양을 생성해 시스템이 자동으로 말하고 있는 얼굴을 만들어 낸다.

심지어 얼굴 뒤의 배경까지도 스케치로 바꿀 수 있다. 또한 같은 소재에서 머리카락과 피부색과 얼굴 생김새까지 다른 인물을 재현해 버리는 것도 가능하다.

얼굴뿐만 아니라 몸 전체도 변형이 기능하다. 영상에서 왼쪽 마네킹 그림이 움직이면 오른쪽의 라이브 비디오에서 주인공이 춤을 춘다. 원하는 자세가 무엇이든 상관없이 키가 크고 짧아지고 뚱뚱하고 가늘어진다. 왼쪽의 마네킹을 조정하면 오른쪽의 라이브 비디오가 만들어진다. 

이 대단한 vid2vid는 기존 딥러닝을 이용한 고해상도 실사 이미지 최신 합성 기술 ‘pix2pixHD’나 ‘COVST(COherent Video Style Transfer)’ 등과 비교해도 품질이 매우 높다.

pix2pixHD와 COVST에 ​​의해 생성 된 영상 모두 움직임이 부자연스럼거나 화면 밝기가 약간 변화하는 등 매우 자연스럽다고 말할 수 없는 상태다. 그에 비해 vid2vid가 생성한 영상은 매우 자연스러운 모습으로 만들어졌는지 한눈에 알 수 있다.

vid2vid는 영상을 변환하는 인공지능을 새로운 방식으로 학습시켜 만들었다. 연구팀은 사진과 영상 내용을 각각 인식시키는 디스크리미네이터(Discriminator) 알고리즘을 사용해 ‘시공간 진행 학습(Spatio-temporally Progressive Training)’이라고 불리는 기법으로 인공지능을 학습시키고 있다.

vid2vid 알고리즘 코드가 깃허브(Github)에 공개되고 있다. 특히 8개의 GPU로 훈련하는 방법, GPU 1개를 설정하는 방법 등 신경망을 훈련하는 방법이 자세하게 나와 있는 교육 안내서까지 제공하고 있다. 컴퓨터 사양은 Linux 또는 macOS 시스템, Python 3, NVIDIA GPU + CUDA cuDNN 등만 있으면 된다.


IT뉴스 / 김들풀 기자  itnews@