전병곤 교수 연구진은 딥러닝 모델을 자동으로 빠르게 분산 학습 하는 시스템인 Parallax를 개발했다고 밝혔다.
딥러닝 기술은 이미지 처리, 음성 인식, 자율주행 등 다양한 분야에서 활용되고 있으며 딥러닝 모델의 학습시간을 단축시키기 위해서 많은 GPU를 사용하는 분산 학습에 관한 연구도 활발하다.
기존 딥러닝 모델의 분산 학습에 관한 연구는 대부분 밀집 텐서를 사용하는 이미지 처리를 위한 모델에 대한 연구로 희소 텐서를 사용하는 모델에 대한 연구는 적었다. 예를 들어 자연어 처리를 위한 모델은 이미지 처리를 위한 모델과는 다르게 사용되는 파라미터의 희소성이 큰데, 이는 문장에 있는 단어들을 벡터 형태로 변환해 주기 위해 활용되는 파라미터들이 처리하는 문장에 속한 단어의 종류에 따라 전체 파라미터 중 일부만 활용되기 때문이다. 하지만 기존 분산 학습 시스템들은 이런 파라미터의 희소성을 잘 활용하지 않아 희소 파라미터가 포함된 모델의 분산 학습 성능이 밀집 파라미터만 사용하는 모델에 비해 상대적으로 낮은 편이었다.
전병곤 교수 연구팀에서 제안한 Parallax는 파라미터 희소성을 고려한 최적화 기술을 통하여 빠르게 분산학습이 가능한 시스템이다. 분산 학습 방법은 크게 서버와 워커로 구성된 파라미터 서버 방식과 AllReduce 방식으로 구분되는데, Parallax는 파라미터의 희소성에 따라 밀집 파라미터는 AllReduce 방식을 적용하고 희소 파라미터는 파라미터 서버 방식을 적용하여 두가지 방식이 혼용된 하이브리드 분산 학습 아키텍쳐를 사용한다. 또한, 머신 별로 미리 데이터를 처리하여 그 크기를 줄인 후에 다른 머신에 전송함으로써 머신간의 통신양을 줄이는 최적화와 크기가 큰 희소 파라미터를 몇 개의 서버에 나누어 처리하는 것이 효율적인지를 자동으로 찾아주는 기능을 제공한다. 그 결과 이미지 처리 모델의 성능은 기존 분산 시스템과 동일하게 유지하면서 자연어 처리 모델의 성능은 기존 시스템 대비 최대 6배로 향상시켰다. Parallax는 자동으로 하나의 GPU에서 개발한 모델을 많은 GPU에서 학습할 수 있도록 해주어 사용성도 크게 증가시켰다.
해당 연구 결과는 2019년 3월 독일 드레스덴에서 개최될 시스템 분야 최고 우수 학회 중 하나인 EuroSys(European Conference on Computer Systems)에서 발표될 예정이다.
출판 전 논문 페이지: https://arxiv.org/abs/1808.02621 (최종 출판본은 2019년 3월 공개 예정)
[그림1] Parallax의 하이브리드 분산 학습 아키텍쳐의 적용 예시. 하나의 모델을 분산 학습 할 때 밀집 파라미터(Dense Variable)는 AllReduce를 이용하는 분산 아키텍쳐를 활용하고, 희소 파라미터(Sparse Variable)는 파라미터 서버 아키텍쳐를 적용한다.
[문의사항]
전병곤 서울대학교 컴퓨터공학부 교수 / bgchun@snu.ac.kr
김수정 서울대학교 컴퓨터공학부 박사과정 / soojeong_kim@snu.ac.kr
유경인 서울대학교 컴퓨터공학부 박사과정 / gyeongin@snu.ac.kr