직함: Leader
Hyperscale의 AI 모델로 인해 새로운 AI 시대가 열리는 듯 하나, 그만큼 커진 모델의 크기와 서비스 비용이 상당한 부담으로 다가오고 있습니다. 본 발표에서는 HyperScale AI 시대를 이끌고 있는 Transformer의 workload를 분석해보고, 이를 압축/가속 하는 다양한 방법에 대해 탐색해본 다음, NAVER CLOVA Efficient AI팀이 내리고 있는 결론에 대해 소개해드릴 예정입니다. Transformer, uniform/non-uniform quantization, GPT-3 가속 등에 대해 다양한 이야기를 할 수 있을 것 같습니다.
2018년 카이스트 전기및전자공학부에서 박사학위를 받은 후, 삼성전자에서 3년간 On-device AI에 대한 연구/개발을 진행했습니다. 지금은 NAVER CLOVA에서 딥러닝 모델 기반의 서비스 비용을 줄이기 위한 모델 압축 업무를 리딩하고 있습니다. 딥러닝 모델 압축과 관련하여 CVPR/ICLR/Neurips/EMNLP 등 여러 Top-tier 딥러닝 학회에 논문을 채택시켰으며, Transformer 모델의 압축/최적화 연구를 통해 효율적인 AI 서비스를 실현하기 위한 노력을 계속하고 있습니다.