■ 다중 학습환경에 최적화된 정책 기반 강화학습 알고리즘 개발
■ 강화학습 기술의 실세계 적용 가능성을 크게 높임
송현오 교수 연구진(연구원: 문승용, 이준영)이 강화학습 에이전트의 일반화 성능을 크게 향상시키는 정책 기반 강화학습 알고리즘을 개발하였다.
강화학습 기술은 로봇, 게임 등의 분야에서 뛰어난 성능을 보이고 있지만, 특정 환경에 과적합하여 환경이 약간이라도 변화하게 되면 성능이 급격히 하락하는 치명적인 단점이 있다. 송현오 교수 연구진은 다양한 변화가 존재하는 다중 학습환경이 주어진 상황에서, 특정 환경에 과적합하지 않도록 에이전트를 학습하여 학습 시 경험하지 못한 새로운 환경에서도 강건하게 작동할 수 있도록 하는 가치 함수(value network) 학습 기법 및 정책 기울기(policy gradient) 알고리즘을 개발하였다. 이번 연구는 강화학습 기술을 실시간으로 변화하는 실세계 환경에 적용할 수 있는 가능성을 크게 향상시켰다는 데 의의가 있다.
해당 연구 결과는 오는 12월 머신러닝 최고 학회인 NeurIPS 2022에 발표될 예정이다.
“Rethinking Value Function Learning for Generalization in Reinforcement Learning”, Seungyong Moon, JunYeong Lee, Hyun Oh Song.