구글, 스마트폰 카메라로 손가락 추적 기술 개발

구글이 스마트폰 카메라로 손과 손가락의 움직임을 정밀하게 실시간으로 추적하는 기술을 개발했다.  기존 손 추적 시스템은 고성능 데스크톱 환경에서만 구현됐다. 

구글 AI 개발팀은 세계적인 컴퓨터 비전 및 딥러닝 컨퍼런스 'CVPR 2019'에서 실시간으로 손의 움직임을 추적하는 기계 학습 시스템을 구글이 제공하는 멀티모달 응용 머신러닝 오픈 소스 프레임워크 미디어 파이프(MediaPipe)에서 구현했다. 

손 모양과 손가락 움직임을 추적하는 것은 사람들이 화면에서 손짓이나 수화를 이해할 수 있다. 하지만 인간은 자연스럽게 사람의 손 모양과 손가락의 움직임을 눈으로 보고 식별할 수 있지만 컴퓨터에게는 어려운 작업이다. 손은 종종 주먹과 악수 등을 할 때 손가락을 가려져 버리거나, 손은 사람의 얼굴처럼 눈과 코, 입 등과 같이 콘트라스트가 다르지 않아 각 부분별로 식별이 어렵다.

하지만, 구글 AI의 개발팀은 3가지 모델을 결합한 기계학습 파이프 라인(Pipeline)을 사용해 식별하기 어려웠던 손이나 손가락의 추적 시스템을 구축했다. 

먼저 ▲손바닥의 방향과 경계를 식별하는 ‘손바닥 검출기 모델(BlazePalm)’ ▲손바닥 감지기 모델에 따라 자른 이미지 영역에서 정확하게 3D 손 키포인트를 돌리는 ‘손 표적 모델’ ▲손 표적 모델이 검출된 키포인트를 제스처의 개별 세트로 분류하는 ‘제스처 식별 모델’이다. 

구글 AI 팀은 “이러한 모델 결합으로 구글은 효율적인 손이나 손가락의 실시간 추적을 가능케 했다”며, “먼저 추적하는 손바닥 이미지에서 정확하게 이미지를 잘라 후속 모델이 사용하는 데이터양이 크게 줄고 좌표 예측 등 정밀도를 높일 수 있었다”고 설명했다.

손바닥 검출기 모델 ‘블레이즈 팜(BlazePalm)’은 이미지 전체에서 다양한 크기로 변화하는 손을 감지할 수 있어 주먹이나 악수할 때 손가락 등이 사라져도 감지할 수 있다.

또한 얼굴처럼 눈이나 코 등 뚜렷한 대비를 가진 부위가 없기 때문에 블레이즈 팜은 팔과 몸 등 추가 컨텍스트를 이용해 정확한 손의 위치를 파악한다. 구글 AI 팀에 따르면 블레이즈 팜은 95.7%의 정확도로 손바닥을 감지 할 수 있다고 주장했다. 

‘손 표적 모델’은 전체 이미지에서 손바닥을 감지한 후 손의 영역을 관절과 관절의 21개 좌표로 분해해 각각 정확한 3D 좌표의 정확한 키포인트 위치를 결정한다. 머신러닝에 의한 훈련으로 부분적으로 보이지 않는 부위나 주먹 등에 대해서도 정확하게 좌표를 얻을 수 있다. 

또한 구글 AI 팀은 검출 정밀도를 높이기 위해 실제 이미지 위에 렌더링된 고품질 합성 손 모델을 조합하고 있다.

‘제스처 식별 모델’은 손의 3D 좌표를 기초로 예측된 손 뼈대 위에 간단한 알고리즘을 적용하여 제스처를 도출한다. 예를 들어 구부러지거나 직선인 각 손가락의 상태는 축적된 관절 각도에 의해 결정된다. 

그런 다음 손가락 상태 세트를 사전에 정의된 제스처 세트에 매핑한다. 이처럼 간단하면서도 효과적인 기술을 통해 기본 제스처를 추정할 수 있다. 구글 AI 팀은 미국과 유럽 및 중국과 같은 여러 문화권의 기존 파이프 라인(손짓 세트)을 작성하고 ‘OK’, ‘하나’, ‘둘’ ‘록’ ‘스파이더맨’ 등  다양한 손 표시를 확인할 수 있다.

이번 구글 AI 팀이 개발한 머신러닝 모델은 개발자가 구글에서 제공하는 머신러닝으로 이미지 검출 등에 사용할 수 있는 오픈 소스 프레임 워크 ‘미디어파이프(MediaPipe)’를 통해 애플리케이션 등 손 추적 시스템을 이용할 수 있다.

구글은 앞으로도 손 추적 기능을 보다 강력하고 안정적인 기술을 확장하고, 제스처의 양을 늘려 역동적인 제스처를 지원할 계획이다.

김들풀 기자 itnews@