김건희 교수 연구진이 Microsoft Research, Nvidia의 연구진들과 공동으로 동영상 표현 학습에 사용 가능한 효율적인 딥러닝 모델 (multimodal Transformer)을 개발하였다.
모델을 학습하기 위해 새로운 자기 지도 학습 기법이 제안되었다. 이 방법은 수많은 동영상 데이터로부터 영상, 음성, 자연어 정보의 상관 관계를 모델이 스스로 배울 수 있도록 하여 사람의 레이블 없이도 더 높은 인식 성능을 달성할 수 있다.
또한 딥러닝 모델의 크기를 효과적으로 줄여 적은 자원으로도 우수한 성능을 얻을 수 있게 되었다.
본 연구는 마이크로소프트의 공식 기술 연구 블로그에서도 우수 연구로서 자세히 홍보되고 있다.
김건희 교수 연구진은 위의 연구를 포함하여 기계학습과 관련된 다음의 연구들을 진행하였다.
위 논문 4편은 오는 5월 ICLR(International Conference on Learning Representations) 2021에 발표할 예정이다.