현재 위치

송현오 교수 연구진, 데이터 효율적인 강화학습 및 대규모 데이터셋 분석 기술로 세계 선도

  • 보상함수의 모델링 없이 사용자 선호 (preference) 데이터만으로 강화학습 에이전트 학습
  • 마인크래프트와 같은 대규모 게임에서 작동하는 강화학습 에이전트 개발
  • 대규모 데이터셋의 레이블 오류와 이상치 데이터를 식별하는 프레임워크 개발

송현오 교수 연구진이 선호 정보를 직접적으로 최적화 하는 강화학습 알고리즘, 절차적 생성 환경을 위한 데이터 효율적인 계층적 강화학습 알고리즘, 그리고 일반적인 도메인에 적용가능한 대규모 데이터 분석 프레임워크를 개발하였다. 

선호 데이터를 통한 강화학습 [1]: 기존의 강화학습 알고리즘은 잘 정의된 보상함수를 요구하기 때문에 현실 적용에 어려움이 있었다. 본 연구진은 대조학습 방법을 활용하여 보상함수 없이 인간의 선호 데이터만을 가지고 에이전트를 학습할 수 있는 강화학습 알고리즘을 제시하였다. 개발된 알고리즘은 기존의 보상함수를 활용하는 방법 대비 더 적은 학습 데이터로 더 우수한 성능을 달성하며, 보상함수 정의가 어려운 일반적인 환경에 적용 가능하다.

대규모 게임에서 작동하는 강화학습 [2]: 본 연구진은 마인크래프트와 같이 다양한 시각적 변이가 존재하는 대규모 환경에서 효율적으로 작동하는 새로운 계층적 강화학습 에이전트을 개발하였다. 본 연구진은 대조학습 기법을 이용하여 에이전트의 시각 인코더가 하위 작업 계층구조의 내재된 정보를 스스로 학습하도록 설계하였다. 개발된 알고리즘은 Google DeepMind가 최근 발표한 강화학습 알고리즘인 DreamerV3에 비해 파라미터 수를 4%만 사용하면서 50%의 성능 향상을 보였다.

대규모 데이터셋 분석 [3]: 인공신경망 학습에 활용되는 대규모 데이터셋은 레이블 오류 혹은 이상치와 같은 복합적인 문제를 지며, 이는 인공신경망의 학습 성능을 저하하는 주요 원인이다. 본 연구진은 데이터셋의 복합적인 문제를 효율적으로 탐지하는 데이터 관계 기반 그래프 알고리즘을 개발하였다. 제안하는 데이터 분석 프레임워크는 이미지,오디오,텍스트 등 일반적인 도메인에 적용 가능하며 수백만 크기의 대규모 데이터셋에도 효율적으로 적용 가능하다.

해당 연구들은 머신러닝 최우수 학회인 NeurIPS 2023에 발표되었다.

[1] "Direct Preference-based Policy Optimization without Reward Modeling", Gaon An*, Junhyeok Lee*, Xingdong Zuo, Norio Kosaka, Kyung-Min Kim, Hyun Oh Song, NeurIPS 2023

[2] "Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning", Seungyong Moon, Junyoung Yeom, Bumsoo Park, Hyun Oh Song, NeurIPS 2023

[3] "Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data", Jang-Hyun Kim, Sangdoo Yun, Hyun Oh Song, NeurIPS 2023

2024년 1월 4일 목요일