송현오 교수 연구진, 최고 성능의 오프라인 강화학습 알고리즘 개발

■ 새로운 오프라인 강화학습 기법을 제시하여 강화학습의 현실 적용 가능성을 크게 향상
■ 기존 알고리즘 대비 온라인 강화학습과의 성능 차이를 40% 개선

<a href='http://mllab.snu.ac.kr/' target='_self'>송현오 교수 연구진</a>이 추가적인 상호작용없이 주어진 데이터만으로도 에이전트를 효율적으로 학습시킬 수 있는 오프라인 강화학습 알고리즘(EDAC)을 개발하였다. 새 알고리즘은 인공신경망의 일반화 성능을 활용하여 한정된 데이터에서의 확장성을 훨씬 개선하는 효과를 거두었다. 이번 연구로 미숙한 상호작용이 큰 위험을 초래할 수 있는 응용 분야들(의료, 자율주행 등)에서 강화학습 기법의 활용 가능성이 크게 높아질 것으로 기대된다.

오프라인 강화학습은 추가적인 상호작용없이 주어진 데이터만으로 에이전트를 학습시키는 기법이다. 기존에 경험하지 못했던 환경에 대한 정보를 얻을 수 없기 때문에, 보통의 오프라인 강화학습 기법은 주어진 데이터셋에서 벗어나지 않도록 보수적인 전략을 취하게 된다. 하지만, 기존의 알고리즘들은 인공신경망의 일반화 성능을 고려하지 않고 데이터셋에서 벗어나는 모든 행동을 일괄적으로 배제하는 한계가 있었다.

이러한 한계를 해결하기 위해 <a href='http://mllab.snu.ac.kr/' target='_self'>송현오 교수 연구진</a>은 인공신경망의 일반화 성능을 활용, 높은 확신도로 결과를 예측할 수 있는 행동들에 대해서는 그 행동이 데이터셋 내에 있지 않더라도 배제하지 않는 방법을 제시하였다. 또한, 이러한 예측 확신도의 지표로 기존에 강화학습 알고리즘에서 흔히 쓰이는 Q-함수 앙상블 (Q-function ensemble) 을 사용할 수 있음을 보였다. 마지막으로, 연산 효율성을 위해 특화된 앙상블 다각화 (ensemble diversification) 기법을 개발하여 앙상블의 규모를 줄이면서 성능은 보존하는데 성공하였다. 개발된 알고리즘 EDAC는 기존 알고리즘 대비 온라인 강화학습과의 성능 차이를 40%로 줄이는 성과를 거두었다.

<img src='https://cse.snu.ac.kr/sites/default/files/node--notice/20211115_01.png'>
<img src='https://cse.snu.ac.kr/sites/default/files/node--notice/20211115_02.png'>

이번 연구 결과는 인공지능 최고 학회 중 하나인 <a href='https://neurips.cc/Conferences/2021/Schedule?showEvent=25921' target='_self'>NeurIPS 2021</a>에서 발표될 예정이다.

새 소식

송현오 교수 연구진, 최고 성능의 오프라인 강화학습 알고리즘 개발

소식