1. Community
  2. arrow_forward_ios

News

Tags
Search
research

송현오 교수 연구진, 데이터 효율적인 강화학습 및 대규모 데이터셋 분석 기술로 세계 선도

보상함수의 모델링 없이 사용자 선호 (preference) 데이터만으로 강화학습 에이전트 학습마인크래프트와 같은 대규모 게임에서 작동하는 강화학습 에이전트 개발대규모 데이터셋의 레이블 오류와 이상치 데이터를 식별하는 프레임워크 개발송현오 교수 연구진이 선호 정보를 직접적으로 최적화 하는 강화학습 알고리즘, 절차적 생성 환경을 위한 데이터 효율적인 계층적 강화학습 알고리즘, 그리고 일반적인 도메인에 적용가능한 대규모 데이터 분석 프레임워크를 개발하였다. 선호 데이터를 통한 강화학습 [1]: 기존의 강화학습 알고리즘은 잘 정의된 보상함수를 요구하기 때문에 현실 적용에 어려움이 있었다. 본 연구진은 대조학습 방법을 활용하여 보상함수 없이 인간의 선호 데이터만을 가지고 에이전트를 학습할 수 있는 강화학습 알고리즘을 제시하였다. 개발된 알고리즘은 기존의 보상함수를 활용하는 방법 대비 더 적은 학습 데이터로 더 우수한 성능을 달성하며, 보상함수 정의가 어려운 일반적인 환경에 적용 가능하다.대규모 게임에서 작동하는 강화학습 [2]: 본 연구진은 마인크래프트와 같이 다양한 시각적 변이가 존재하는 대규모 환경에서 효율적으로 작동하는 새로운 계층적 강화학습 에이전트을 개발하였다. 본 연구진은 대조학습 기법을 이용하여 에이전트의 시각 인코더가 하위 작업 계층구조의 내재된 정보를 스스로 학습하도록 설계하였다. 개발된 알고리즘은 Google DeepMind가 최근 발표한 강화학습 알고리즘인 DreamerV3에 비해 파라미터 수를 4%만 사용하면서 50%의 성능 향상을 보였다.대규모 데이터셋 분석 [3]: 인공신경망 학습에 활용되는 대규모 데이터셋은 레이블 오류 혹은 이상치와 같은 복합적인 문제를 지며, 이는 인공신경망의 학습 성능을 저하하는 주요 원인이다. 본 연구진은 데이터셋의 복합적인 문제를 효율적으로 탐지하는 데이터 관계 기반 그래프 알고리즘을 개발하였다. 제안하는 데이터 분석 프레임워크는 이미지,오디오,텍스트 등 일반적인 도메인에 적용 가능하며 수백만 크기의 대규모 데이터셋에도 효율적으로 적용 가능하다.해당 연구들은 머신러닝 최우수 학회인 NeurIPS 2023에 발표되었다.[1] "Direct Preference-based Policy Optimization without Reward Modeling", Gaon An*, Junhyeok Lee*, Xingdong Zuo, Norio Kosaka, Kyung-Min Kim, Hyun Oh Song, NeurIPS 2023[2] "Discovering Hierarchical Achievements in Reinforcement Learning via Contrastive Learning", Seungyong Moon, Junyoung Yeom, Bumsoo Park, Hyun Oh Song, NeurIPS 2023[3] "Neural Relation Graph: A Unified Framework for Identifying Label Noise and Outlier Data", Jang-Hyun Kim, Sangdoo Yun, Hyun Oh Song, NeurIPS 2023...
포스트 대표 이미지

서울대 김현우 박사, 국제 최우수 AI 학회 EMNLP2023에서 국내 대학 연구자 최초로 논문상 수상

거대 언어모델을 활용하여 기호 기반 상식 그래프에 맥락을 더하는 방법론을 개발하여 세계 최초의 백만 단위 세계 최대 규모 고품질 일상 대화 데이터셋 SODA를 무료로 공개데이터셋 SODA는 다방면에서 기존 대화 데이터셋보다 품질이 훨씬 뛰어나, 이에 학습한 대화 모델은 기존모델들보다 더 자연스러운 답변 생성 가능김현우 박사가 서울대 박사과정 중 미국 시애틀의 AI2에 인턴을 수행하며 국제 협력 연구를 이끌었으며 졸업 후 AI2에서 박사후 연구원으로 취업하여 후속 연구 이어가는 중김현우 박사와 김건희 교수가 미국 시애틀 앨런 인공지능 연구소(Allen Institute for AI; AI2) 및 워싱턴 대학교(University of Washington)의 최예진 교수 등과 함께 진행한 연구가 국제 최우수 자연어처리 학술대회 EMNLP 2023에서 Outstanding Paper Award를 수상하였다. 국내 대학 연구진이 EMNLP에서 수상을 한 것은 이번이 최초다.기존 인공지능 대화 분야는 고질적으로 데이터 부족 문제에 시달려왔다. 왜냐하면 일상에서 이루어지는 대화들은 데이터로 기록되지 않는 경우가 대부분이기 때문이다. 설령, 문자 메세지나 이메일 같은 형태로 대화가 기록되더라도 여러 법적 제약들이 존재하기 때문에 이를 연구에 활용하기에는 어려웠다. 이에 대한 대안으로 그동안 크라우드 소싱을 통해 대화 데이터셋을 제작하여 왔지만 이는 비용도 많이 들뿐더러 만들 수 있는 데이터셋 크기도 작은 문제점이 있다. 그 결과, 기존 대화 관련 연구들은 모두 소수의 작은 데이터셋 위에서 이루어져 범용성에 큰 제약이 있었다.수상 논문인 ‘사회 상식 맥락화 기법을 통한 백만 단위의 대화 증류(SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization)’는 이를 해결하기 위해 거대 언어모델(large language model; LLM)과 기호 기반 상식 그래프(symbolic commonsense knowledge graph)를 함께 사용하여 데이터셋을 효율적으로 자동 구축하는 방법론인 CO_3 증류 프레임웍(distillation framework)을 제시하였다. 기존에 크라우드 소싱을 활용할 경우 대화 하나 당 길게는 몇 분이 걸리던 작업을 CO_3 프레임웍은 6초 내외로 단축시킨다.연구팀은 이를 통해 세계 최초로 150만 규모의 세계 최대 고품질 일상 대화 데이터셋인 SODA를 무료로 공개하였는데, 이는 기존 데이터셋 대비 100배 큰 규모다. 크기 뿐만 아니라, 대화의 자연스러움, 일관성, 구체성 등 품질 또한 기존 크라우드 소싱 기반 대화 데이터셋에 비해 2배 이상 뛰어난 것으로 연구 결과가 나타났다. 그 결과, SODA에 학습시킨 챗봇 COSMO는 파라미터 수가 30억 개로 작은 크기임에도 불구하고 기존 큰 챗봇들(파라미터 수 70억)보다 대화 맥락에 더 적합하고 자연스러운 답변이 가능하다.이번 연구는 대화 데이터셋 부족 문제를 해결하고, 누구나 간편하게 세계 최대 규모의 고품질 대화 데이터셋을 구축할 수 있는 방법론을 제시했다는 데에 의의가 있다. 이 방법론으로 탄생한 데이터셋 SODA는 다양한 대화 연구에 기반 자료로 쓰일 수 있을 것으로 기대된다. 해당 코드, SODA 데이터셋, COSMO 모델은 모두 오픈소스로 공개되어 있다.해당 논문은 미국 시애틀의 앨런 인공지능 연구소(Allen Institute for AI; AI2), 워싱턴 대학교(University of Washington), 카네기멜론 대학교 (Carnegie Mellon University), 서던 캘리포니아 대학교 (University of Southern California), 그리고 피츠버그 대학교 (University of Pittsburgh)와 함께 국제 공동협력 연구로 이루어낸 결과다. 김현우 박사와 김건희 교수는 정보통신기획평가원(IITP)의 연구비를 지원받았다(No.2019-0-01082, No.2022-0-00156).“SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization”, Hyunwoo Kim, Jack Hessel, Liwei Jiang, Peter West, Ximing Lu, Youngjae Yu, Pei Zhou, Ronan Le Bras, Malihe Alikhani, Gunhee Kim, Maarten Sap, and Yejin Choi....
포스트 대표 이미지
포스트 대표 이미지
포스트 대표 이미지

김선 교수 연구진, "삼성 인공지능/컴퓨터공학 챌린지 2023" 인공지능 분야 수상

삼성전자 SAIT에서 주최하는 "삼성 인공지능/컴퓨터공학 챌린지 2023"의 인공지능 분야에서 우수상 수상반도체 소재 시스템의 3차원 구조로부터 에너지 및 force field 예측하는 알고리즘 개발김선 교수 연구실 소속 팀 (Team 털실뭉치의 이단영) 이 삼성전자 SAIT에서 주최한 "삼성 인공지능/컴퓨터공학 챌린지 2023"의 인공지능 분야의 “반도체 소재 시뮬레이션용 머신 러닝 알고리즘” 부문에서 2위(우수상)로 수상하였다. 해당 부문의 주제는 반도체 소재 시스템의 3차원 구조로부터 시스템의 에너지 및 force field를 예측하는 알고리즘 개발이었으며, 이는 분자 동역학 (Molecular dynamics) 을 통한 에너지 최적화 및 시뮬레이션의 정확성을 향상시키는 데 중요한 역할을 한다.김선 교수 팀은 3차원 구조의 모델링에 적합한 equivariant 신경망 기반 모델의 개발을 통해 반도체 소재의 복잡한 구조와 상호 작용을 더 정확하고 효율적으로 모델링하고자 하였다. 연구팀은 다양한 기계학습 기법과 결합된 새로운 접근 방식을 사용하여, 전통적인 방법보다 빠르고 정확한 예측이 가능하게 하였다. 이를 통해, 반도체 소재의 효율적인 설계 및 개발 과정에서의 시간 및 비용 절감에 크게 기여할 것으로 기대된다....
포스트 대표 이미지
포스트 대표 이미지

강유 교수팀, 전자신문 ICT 논문 공모 대제전 최우수상 수상

전자신문 ICT 논문 공모 대제전 최우수상 수상빠르고 정확한 전이 학습 기술 개발컴퓨터공학부 허혜문 박사과정 학생과 강유 교수가 작성한 논문이 제 15회 전자신문 ICT 논문 공모 대제전 최우수상을 수상하였다. 본 논문에서 다룬 전이 학습은 미리 학습된 모델을 활용하여 새로운 도메인에서의 인공지능 과업의 정확도를 높이는 기법을 의미한다. 전이 학습은 특히 새로운 도메인에서의 데이터가 부족할 때 미리 방대한 데이터로 학습한 모델을 활용하여 성능을 높일 수 있다는 점에서 요즘 많은 관심을 받고 있다.이번 논문에서는 새로운 도메인에 가장 적합한 모델을 빠르게 선택하여 전이학습을 하는 TMI라는 기법을 제안하였다. TMI는 미리 학습된 모델 중 최적의 모델 구조를 선택하거나, 가장 좋은 원본 데이터로 학습된 모델을 선택하는 등 다양한 전이 학습 환경에서 활용 가능하다. 한편, 본 연구는 과학기술정보통신부의 SW 스타랩 과제의 지원을 받았으며, 초 거대 모델을 빠르고 가볍지만 정확도를 유지하는 모델로 압축하는 모델 경량화를 위한 최적의 모델을 선택하는데 활용될 예정이다. “Fast and Accurate Transferability Measurement by Evaluating Intra-class Feature Variance”, Huiwen Xu, U Kang, ICCV 2023...
포스트 대표 이미지

이재진 교수 연구진, "삼성 인공지능/컴퓨터공학 챌린지 2023" 컴퓨터공학 분야 수상

삼성전자 SAIT에서 주최하는 "삼성 인공지능/컴퓨터공학 챌린지 2023"의 컴퓨터공학 분야에서 최우수상, 우수상 수상시스템 및 알고리즘 최적화를 통해 대규모 언어 모델의 추론 성능 가속화이재진 교수 연구실 소속 두 개의 팀이 삼성전자 SAIT에서 주최하여 8월 21일부터 10월 20일까지 진행된 "삼성 인공지능/컴퓨터공학 챌린지 2023"의 컴퓨터공학 분야에서 각각 최우수상(TeamH : 김희훈, 유준열) 및 우수상(ShongShong2 : 김진표, 박대영, 신준식)을 수상하였다.대규모 언어 모델(Large Language Model)이 다양한 분야에서 높은 성과를 보여주면서 수요가 폭발적으로 증가하고 있어 대량의 GPU 자원을 활용하여 추론 시간을 줄이는 것이 중요해졌다. 이러한 추세에 맞추어, 올해로 3회를 맞는 "삼성 인공지능/컴퓨터공학 챌린지 2023"는 기존 인공지능 분야 외 컴퓨터공학 분야를 신설하였다. 컴퓨터공학 분야의 과제는 여러 개의 GPU를 활용하여 시스템 및 알고리즘 최적화를 통해 대규모 언어 모델의 정확도를 떨어뜨리지 않으면서 추론 성능을 높이는 것이었다.두 팀은 기존 GPU 연구 경험을 바탕으로 다양한 최적화를 적용하여 LLaMA-30B 모델로 HellaSwag 데이터셋 전체를 추론하는 시간을 400초 수준까지 가속하였다. 그 결과 최종 라운드에 선발된 10팀 중 각각 1위와 2위를 기록하는 성과를 냈다. 챌린지에 참여한 ShongShong2 팀의 김진표 학생은 "대회를 진행하면서 개인 연구 주제에 대해서도 다른 관점에서 고민해 볼 수 있었고, 큰 동기 부여를 해주는 경험이었다"고 밝혔다. 두 팀에는 부상으로 각각 상금 1,000만 원과 500만 원이 수여된다....
포스트 대표 이미지

강유 교수 연구진, 빠르고 정확한 전이 학습 기술 개발

 빠르고 정확한 전이 학습 기술 개발 미리 학습된 모델 중 대상 과업의 성능 향상에 가장 도움을 많이 주는 모델을 빠르게 찾는 기술강유 교수 연구진이 빠르고 정확한 전이 학습 기술을 개발하였다. 전이 학습은 미리 학습된 모델을 활용하여 새로운 도메인에서의 인공지능 과업에 적용하는 기법을 의미한다. 최근 방대한 데이터로 미리 학습한 모델을 새로운 과업에 적용하여 정확도를 높이는 사례가 늘어나면서 전이 학습의 중요성이 커지고 있다.본 연구에서는 여러 미리 학습된 모델 중에서, 새로운 도메인의 과업에 가장 적합한 모델을 빠르게 선택하여 전이학습을 하는 TMI 라는 기법을 제안하였다. TMI는 새로운 과업에 재학습을 하지 않고도 클래스 간 분산 정보를 활용하여 빠르게 최적의 전이학습용 모델을 찾아낸다.본 연구는 과학기술정보통신부의 SW 스타랩 과제의 지원을 받았으며, 거대 모델을 빠르고 가벼운 모델로 압축하는 모델 경량화를 위한 최적의 모델을 선택하는데 활용될 예정이다. 연구 결과는 2023년 10월에 열린 최우수 인공지능 학회인 ICCV 2023에서 발표되었다.▲ 미리 학습된 모델 중 대 상과업의 성능 향상에 가장 도움을 많이 주는 모델을 빠르게 찾는 기술 개발“Fast and Accurate Transferability Measurement by Evaluating Intra-class Feature Variance”, Huiwen Xu, U Kang, ICCV 2023...
포스트 대표 이미지

송현오 교수 연구진, 강화학습 에이전트의 일반화 성능을 향상시키는 기술 개발로 세계 선도

■ 다중 학습환경에 최적화된 정책 기반 강화학습 알고리즘 개발■ 강화학습 기술의 실세계 적용 가능성을 크게 높임송현오 교수 연구진(연구원: 문승용, 이준영)이 강화학습 에이전트의 일반화 성능을 크게 향상시키는 정책 기반 강화학습 알고리즘을 개발하였다.강화학습 기술은 로봇, 게임 등의 분야에서 뛰어난 성능을 보이고 있지만, 특정 환경에 과적합하여 환경이 약간이라도 변화하게 되면 성능이 급격히 하락하는 치명적인 단점이 있다. 송현오 교수 연구진은 다양한 변화가 존재하는 다중 학습환경이 주어진 상황에서, 특정 환경에 과적합하지 않도록 에이전트를 학습하여 학습 시 경험하지 못한 새로운 환경에서도 강건하게 작동할 수 있도록 하는 가치 함수(value network) 학습 기법 및 정책 기울기(policy gradient) 알고리즘을 개발하였다. 이번 연구는 강화학습 기술을 실시간으로 변화하는 실세계 환경에 적용할 수 있는 가능성을 크게 향상시켰다는 데 의의가 있다.해당 연구 결과는 오는 12월 머신러닝 최고 학회인 NeurIPS 2022에 발표될 예정이다. “Rethinking Value Function Learning for Generalization in Reinforcement Learning”, Seungyong Moon, JunYeong Lee, Hyun Oh Song....
포스트 대표 이미지