Prof. Youngki Lee's research team, getting world's attention with Augmented Reality(AR) development technology

서울대학교 이영기 교수 연구진,
증강현실 개선기술로 세계적으로 주목받는 중

  • 원거리 사람 인식 기술, 복잡한 도심에서 범인 찾기등 실시간, 고정밀 AR 서비스 가능해져
  • 소형 AR 기기를 위한 딥러닝 실행 기술, AR 컨텐츠 다양화 및 사용자 경험 증진에 큰 기여
  • 3D 비디오 실시간 스트리밍 기술, 텔레프레전스, 원격의료 서비스를 위한 현장감 극대화

이영기 교수 연구진이 증강현실(Augmented Reality, AR)을 위한 모바일 딥러닝 시스템 및 3D 비디오 스트리밍 시스템 원천기술을 개발하였다. 특히, 복잡한 도심 공간에서의 고속, 고정밀 얼굴 인식을 위한 EagleEye 시스템은 기존 모바일 시스템들의 인식 정확도 및 지연 시간을 크게 개선하여 범인 추적, 실종 아동 찾기 등 다양한 AR 응용에 활용될 것으로 예상된다. 또한, AR 응용을 위한 모바일 GPU 스케줄링 플랫폼 Heimdall은 미래형 AR 응용의 핵심 요구사항인 다중 딥 뉴럴 네트워크(Deep Neural Network, DNN) 및 렌더링 연산의 동시 수행을 효율적으로 지원하지 못하는 기존 모바일 딥러닝 프레임워크들의 한계를 극복하여 AR 응용 개발 및 확산에 크게 기여할 것으로 기대된다. 고해상도 3D 볼류메트릭(volumetric) 비디오 스트리밍을 위한 모바일 시스템 GROOT 역시 미래형 AR 응용에 필수적인 차세대 3차원 미디어의 실시간 스트리밍을 지원하여 텔레프레전스(telepresence), 원격의료 등 새로운 사용자 경험 제공에 핵심기술이 될 것으로 전망된다.

EagleEye [1]: 이영기 교수 연구진(제 1저자: 이주헌 박사과정)은 모바일/웨어러블 기기를 활용한 선도적 얼굴 인식 AR 응용 시스템 EagleEye를 개발하였다. 핵심 기술로, 복잡한 도심 공간 속에서의 얼굴 인식 정확도를 높이기 위해 먼 거리에서 촬영된 저해상도 얼굴의 화질을 개선하는 딥러닝 알고리즘을 개발하였다. 또한, 고화질 비디오 입력 데이터에 다중 DNN 연산을 반복적으로 수행해야 하는 얼굴 인식 알고리즘(그림 1)의 성능 문제가 심각함을 보이고, 입력 비디오의 장면 구성에 따라 다양한 DNN을 적응적으로 선택하여 모바일 및 클라우드에서 병렬처리하는 파이프라인을 개발하였다(그림 2). 이를 통해, 기존 순차적 연산 수행 대비 약 9배 지연 시간 성능 향상을 달성하였다.

20200907_%EC%9D%B4%EC%98%81%EA%B8%B01.png

Heimdall [2]: 이영기 교수 연구진(제 1저자: 이주헌 박사과정) 미래형 AR 응용 워크로드를 지원하기 위한 선도적 모바일 GPU 스케줄링 플랫폼 Heimdall을 개발하였다. 기존의 모바일 딥러닝 프레임워크는 단일 DNN을 독립적으로 실행하도록 설계되어, 모바일 GPU에서 다중 DNN과 렌더링 연산을 동시 수행 시 자원경쟁으로 인한 심각한 성능 저하가 발생한다(그림 3). 이러한 한계를 극복하기 위해, 연산 수행시간이 긴 DNN을 작은 스케줄링 단위로 나누고, 동시 수행되는 GPU 작업을 우선순위를 기반으로 유연하게 스케줄링하기 위한 Pseudo-Preemption 메커니즘을 제시하였으며, 이에 기반한 GPU 스케줄러를 개발하였다(그림 4). Heimdall은 기존 모바일 딥러닝 프레임워크 대비 렌더링 프레임 레이트 약 3배 향상, DNN 추론 연산 수행시간 최대 15배 감소 성능을 달성하였다.

20200907_%EC%9D%B4%EC%98%81%EA%B8%B02.png

GROOT [3]: 이영기 교수 연구진(제 1저자: 이경진 연구원)은 모바일 기기에서 고해상도 3D 볼류메트릭 비디오의 실시간 스트리밍을 지원하는 최초의 시스템 GROOT 개발하였다. 3D 볼류메트릭 비디오(그림 5)은 미래형 AR 응용에서 높은 사용자 몰입도를 제공하기 위한 핵심 미디어 기술이다. 하지만, 3D 볼류메트릭 비디오는 기존 2D, 360° 비디오보다 데이터 용량이 매우 크며, 2D 비디오의 그리드 구조와 달리 3D 데이터 구조는 불규칙적이고 희소성이 높아 병렬처리가 어려워 기존 프레임워크로 실시간 디코딩이 불가능하다. 이러한 한계를 극복하기 위해 볼류메트릭 비디오를 병렬적으로 디코딩할 수 있는 데이터 구조를 개발하고, 실시간 프레임 레이트를 달성하는 스트리밍 파이프라인을 설계하여(그림 6) 기존 프레임워크 대비 약 9배 프레임 레이트 향상을 달성하였다.

20200907_%EC%9D%B4%EC%98%81%EA%B8%B03.png

이영기 교수 연구진은 모바일 컴퓨팅 분야 플래그십 컨퍼런스인 ACM MobiCom 2020에 3편의 논문을 게재 예정이다. 이는 세계적으로 사례가 적은 우수한 성과이다.

MobiCom 2020 홈페이지: https://sigmobile.org/mobicom/2020/

References
[1] Juheon Yi, Sunghyun Choi, and Youngki Lee, “EagleEye: Wearable Camera-based Person Identification in Crowded Urban Spaces,” ACM International Conference on Mobile Computing and Networking (MobiCom), 2020.
[2] Juheon Yi and Youngki Lee, “Heimdall: Mobile GPU Coordination Platform for Augmented Reality Applications,” ACM International Conference on Mobile Computing and Networking (MobiCom), 2020.
[3] Kyungjin Lee, Juheon Yi, Youngki Lee, Sunghyun Choi, and Young Min Kim, “GROOT: A Real-time Streaming System for High-Fidelity Volumetric Videos,” ACM International Conference on Mobile Computing and Networking (MobiCom), 2020.

Thursday, September 17th 2020