MIT, 영상서 음악편집 AI시스템 개발

유튜브에서 내가 좋아하는 음악의 공연 영상을 보고 원하는 악기의 연주방법을 알 수 있다면 어떨까? 악기뿐만 아니라 사물의 소리를 계이름으로 표현하는 '절대음감'을 부러워하는 사람들에게 희소식이다. 인공지능(AI)이 연주하는 악기가 무엇이며, 어떤 소리가 나는지 찾아낸다. 

매사추세츠 공과대학교(MIT, Massachusetts Institute of Technology)의 컴퓨터과학 인공지능연구소(CSAIL, Computer Science and Artificial Intelligence Laboratory, 이하 CSAIL)가 개발한 새로운 AI 프로젝트다. 

CSAIL은 음악을 연주하는 동영상에서 특정한 악기의 소리를 분리하는 AI 시스템 ‘PixelPlayer’를 개발했다. 동영상의 연주자를 클릭하면 그 악기의 소리를 뽑아내거나 소리의 크기를 조절 할 수 있다. 좋아하는 음악의 특정 부분을 연주하는 방법을 찾아낼 수도 있고, 듣고 싶었던 악기의 소리만 분리할 수도 있다. 

PixelPlayer는 악기를 픽셀 수준으로 식별하고 그 악기에 연결된 소리를 추출한다. 인간이 추가로 조작하지 않고도 동영상과 음악을 동시에 분석한다. 동기화된 영상에서 연주하고 있는 사람과 음성을 연계시켜 동영상을 클릭하는 것만으로 특정 악기의 소리를 흘리거나 악기마다 음량을 조절할 수 있다. 

인공지능 심층신경망(deep learning neural network) 기술을 통해 60시간 이상 공연 영상을 분석, 학습하여 악기를 식별하고 소리를 추출한다. 예를 들어, ‘Super Mario Brothers’의 주제곡을 연주하는 영상에서 곡을 연주하는 튜바와 트럼펫 소리를 분리한다. PixelPlayer의 사용 모습은 다음 동영상에서 볼 수 있다.

CSAIL 연구원은 PixelPlayer가 향상된다면 과거의 공연을 다시 녹음할 수 있다고 설명한다. 기타 소리는 키우고 드럼 소리는 줄이며, 키보드 소리는 부드럽게 만들어 낸다. AI가 음향 엔지니어의 역할을 대신한다. 머지않아 AI가 만든 전설의 록 밴드 '비틀즈'의 공연 영상을 만나게 될 지도 모르겠다. 

IT뉴스 / 이새잎 기자  ebiz@