1. 소식

새 소식

태그
검색
연구

송현오 교수 연구진, 강화학습 에이전트의 일반화 성능을 향상시키는 기술 개발로 세계 선도

■ 다중 학습환경에 최적화된 정책 기반 강화학습 알고리즘 개발■ 강화학습 기술의 실세계 적용 가능성을 크게 높임송현오 교수 연구진(연구원: 문승용, 이준영)이 강화학습 에이전트의 일반화 성능을 크게 향상시키는 정책 기반 강화학습 알고리즘을 개발하였다.강화학습 기술은 로봇, 게임 등의 분야에서 뛰어난 성능을 보이고 있지만, 특정 환경에 과적합하여 환경이 약간이라도 변화하게 되면 성능이 급격히 하락하는 치명적인 단점이 있다. 송현오 교수 연구진은 다양한 변화가 존재하는 다중 학습환경이 주어진 상황에서, 특정 환경에 과적합하지 않도록 에이전트를 학습하여 학습 시 경험하지 못한 새로운 환경에서도 강건하게 작동할 수 있도록 하는 가치 함수(value network) 학습 기법 및 정책 기울기(policy gradient) 알고리즘을 개발하였다. 이번 연구는 강화학습 기술을 실시간으로 변화하는 실세계 환경에 적용할 수 있는 가능성을 크게 향상시켰다는 데 의의가 있다.해당 연구 결과는 오는 12월 머신러닝 최고 학회인 NeurIPS 2022에 발표될 예정이다. “Rethinking Value Function Learning for Generalization in Reinforcement Learning”, Seungyong Moon, JunYeong Lee, Hyun Oh Song....
포스트 대표 이미지

이재진 교수 연구진, 거대 딥러닝 모델 학습 기술 개발로 세계 선도

■ 근접 메모리 컴퓨팅(Near-memory computing) 플랫폼인 삼성전자의 AXDIMM과 고속의 저장장치를 활용, GPU 메모리의 한계 극복 ■ 거대 딥러닝 모델의 학습을 소규모 시스템에서 가능케 하는 기술 개발 이재진 교수 연구진(연구원: 김희훈, 박대영, 김진표, 신준식)이 메모리와 저장장치를 활용하여 거대 딥러닝 모델을 학습하는 기술로 삼성전자에서 주최한 Open Innovation Contest for AXDIMM Technology에서 1위를 달성하였다.트랜스포머 구조를 필두로 한 거대 딥러닝 모델이 자연어 처리, 이미지 분석 등 다양한 분야에서 뛰어난 성능을 보이고 있다. 그러나 기존 기술로 거대 딥러닝 모델을 학습하기 위해서는 수백 내지는 수천 개의 GPU로 구성된 시스템이 필요하며, 그런 시스템에 접근 가능한 소수의 기업과 연구자만이 모델을 활용할 수 있었다.이재진 교수 연구진은 학습 과정에서 사용하는 데이터의 일부를 GPU 메모리 대신 AXDIMM 내의 메모리 또는 고속의 저장장치인 NVMe SSD에 저장하여 적은 수의 GPU로도 기존보다 큰 모델을 학습할 수 있는 기술을 개발하였다. 또한 딥러닝 연산 중 파라미터 갱신을 AXDIMM에 하드웨어로 구현하고, 메모리와 근접한 곳에서 실행함으로써 같은 연산을 GPU 또는 CPU에서 실행하는 것에 비해 높은 성능을 달성하였다.연구진이 소규모 프로토타입 시스템을 구축하여 거대 딥러닝 모델 중 하나인 GPT-3로 테스트한 결과, AXDIMM 기반 시스템은 개발한 기술을 사용하지 않은 시스템 대비 최대 1.68배의 성능 향상을 보였다. 고성능을 요하는 애플리케이션에서 발생하는 메모리 병목이 주목받고 있는 가운데, 개발한 기술은 near-memory computing을 통해 문제를 해결한 중요한 사례로서 남을 것이다....
포스트 대표 이미지
포스트 대표 이미지