[Seminar] Correcting Algorithmic Bias in Q-learning and its Variants

이동헌
Ph.D candidate
Department of Computer Science at Princeton University
일시: 
2017년 7월 10일 월요일 PM 2:00 - 2017년 7월 10일 월요일 PM 3:00
장소: 
302-309/1

호스트: 이재욱 교수(x1834, 880-1834)

요약

강화학습의 성공적인 적용례에 자주 쓰인 Q-learning계열의 알고리즘의 수학적인 수렴특성은 상당히 포괄적이어서, 다양한 적용례에 알고리즘이 사용되는 것에 크게 기여했습니다. 하지만, 선공사례에 못지 않게 수많은 실패사례들이 보고되지 않은 채로 있고, 더욱이 그러한 실패사례들을 어떻게 접근해야 성공적으로 적용할 수 있는지에 대해서는 몇 가지 heuristic들만이 통용되고 있을 뿐입니다. 이러한 heuristic들을 간단히 살펴보고, 왜 이러한 heuristic들이 생기게 되었는지에 대해 Q-learning계열 알고리즘의 수학적 특성을 알아보도록 하겠습니다. 그리고, Q-learning 알고리즘의 구조적인 성질 중에서, 실제 적용을 방해할 수 있는 algorithmic bias를 명시하고, 이를 줄이는 방법을 함께 살펴보도록 하겠습니다.

연사 소개

- 2007-09 카네기멜론 computational biology 석사과정
- 2009-12 프린스턴 CS 박사과정
- 2012-16 삼성전자 메모리사업부 책임연구원
- 2016-현재 프린스턴 CS 박사과정
- 제가 한 것 중 한국에서 제일 잘 알려진 것들: 2016년초 알파고 분석자료 "모두의 알파고", "프로그래머를 위한 알파고", "알파고 해부하기"