1. Community
  2. arrow_forward_ios

News

Tags
Search
all

김건희 교수 연구팀, 자연어처리 최우수학회 NAACL 2025 음성인식 부분 최고 논문상 수상

AI가 사람처럼 말버릇, 추임새, 끼어들기 등 대화 행동을 이해하고 재현하는 음성 대화 기술이 개발되었다.연구팀은 세계 최대 규모의 대화 행동 기반 음성 데이터셋인 Behavior-SD를 구축하고, 이를 바탕으로 자연스러운 AI 음성 대화 모델 BeDLM을 제안했다.해당 기술은 팟캐스트 제작, 상담 AI, 개인화 음성비서 등 사람과 상호작용이 중요한 다양한 분야에 활용 가능성이 높다.사람들이 대화를 할 때는 정보를 주고 받는 것 외에도 “음…”, “그니까…” 같은 말버릇을 쓰고, 적절한 순간에 “맞아”, “응” 같은 추임새를 넣거나, 때로는 상대의 말을 끊기도 하면서 소통한다. 하지만 기존 인공지능 대화 시스템은 이런 미묘한 말버릇이나 대화 습관을 반영하지 못해, 말투가 부자연스럽고 기계적으로 느껴질 수밖에 없었다.김건희 교수 연구팀(이세훈 박사과정, 김강욱 학사과정)은 이러한 문제를 해결하기 위해, 사람의 말버릇과 추임새(backchannel), 끼어들기(interruption), 감정 표현 등 대화 행동을 정밀하게 반영한 음성 데이터셋과 대화 생성 기술을 함께 제안하였다.연구팀은 먼저 10만 개 이상, 총 2천 시간 분량의 대규모 대화 행동 기반 음성 데이터셋인 Behavior-SD를 구축했다. 이 데이터는 단순한 문장이 아니라, 각 화자의 말투와 말버릇이 행동 단위로 주석 처리되어 있어, 실제 사람 간의 자연스러운 대화를 정밀하게 구현할 수 있도록 설계되었다.이 데이터를 바탕으로 개발된 행동 기반 대화 생성 모델(BeDLM)은, 대화 상황과 화자의 대화 행동 패턴을 입력으로 받아, 사람 간 대화에 가까운 음성 대화를 쉽게 생성할 수 있는 AI 기술을 구현했다. 대화 행동을 반영하여 말버릇을 자연스럽게 끼워 넣는다. 이 기술은 생동감 있는 팟캐스트 콘텐츠 제작, 개인 맞춤형 음성 비서, 정서적 반응이 필요한 상담 AI 등, 자연스러운 말하기와 듣기가 중요한 응용 분야에서 활용도가 높다.이 연구는 세계 최고 수준의 자연어처리 학회인 NAACL 2025에서 구두로 발표되었으며, 음성 처리 및 음성 언어 이해(Speech Processing and Spoken Language Understanding) 분야에서 최우수 논문에게 수여되는 Senior Area Chair Award를 수상했다. Senior Area Chair Award 는 자연어처리 핵심 9개 분야에서 각 최우수 논문 1편씩을 선정하였다.이 연구에서 개발된 Behavior-SD 데이터셋과 코드는 모두 오픈소스로 공개되어, 국내외 연구자 누구나 자유롭게 활용할 수 있다. 관련 기술의 확산과 후속 연구를 촉진할 수 있을 것으로 기대된다.[연구지원]본 연구는 정보통신기획평가원(IITP)의 ICT R&D 사업(No. RS-2022-II220156, No. RS-2019-II191082), ITRC 지원사업(No. IITP-2025-RS-2024-00437633), 서울대학교 글로벌 우수연구센터 사업, NRF 기초연구사업(RS-2023-00274280)의 지원을 받아 수행되었다.[논문 정보]​“Behavior-SD: Behaviorally Aware Spoken Dialogue Generation with Large Language Models”, Sehun Lee*, Kang-wook Kim*, Gunhee Kim, 2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL 2025)...
포스트 대표 이미지

"AI 속도 따라잡을 '새로운 몸'…창의적 컴퓨터가 미래 가른다"

인공지능(AI)이 두뇌라면 컴퓨터는 AI를 담은 물리적 실체다. 서진욱 서울대 컴퓨터연구소 소장은 11일 “미래의 컴퓨터는 스스로 사고하고 인간과 소통하는 ‘기계 이상의 존재’가 될 것”이라고 말했다. 두뇌의 속도에 따라 몸도 날렵해질 것이란 얘기다. 한국을 비롯해 미국, 중국, 유럽, 일본 등 주요 국가는 ‘창의적인 컴퓨터’를 누가 먼저 내놓느냐는 아키텍처 경쟁에 돌입했다. 인간의 두뇌처럼 적은 전력만으로도 중요한 정보에만 집중함으로써 효율을 높이는 ‘어텐션(attention·집중) 연산’을 비롯해 인간 행동을 모사해 로봇의 움직임을 만들어내는 ‘인간-물체 상호작용(HOI) 모델링’ 등이 주요 경쟁 영역이다. 서 소장을 비롯해 연구소의 핵심인 이재욱, 주한별, 원정담 서울대 컴퓨터공학과 교수는 “컴퓨터가 인류 난제에 도전하고 이를 다양한 영역으로 확장시킬 것”이라고 입을 모았다.◇인간의 두뇌 닮아가는 컴퓨터서 소장은 “생성형 AI 시대에서 나타난 가장 큰 문제는 기존 컴퓨터로는 초대규모 데이터를 처리하는 것이 점점 어려워지고 있다는 점”이라고 말했다. 몸이 두뇌 속도를 못 따라간다는 것이다. 전력을 너무 많이 소모하는 것도 해결해야 할 과제 중 하나다. 이를 위해 서울대 컴퓨터연구소는 AI 연산을 가속화하고 저전력·고효율·고확장 컴퓨팅 환경을 구축하기 위한 새로운 컴퓨터 아키텍처 개발에 주력하고 있다.예컨대 하드웨어(HW)와 소프트웨어(SW)가 최적의 성능을 낼 수 있도록 함께 설계하는 ‘협조 최적화’(co-design)가 대표적인 기술로 꼽힌다. 현재까지의 설계 방식은 ‘따로국밥’ 식이다. HW 엔지니어는 빠르고 안정적인 회로와 장치를 설계하는 데만 주력하고, SW 개발자는 그 위에서 돌아가는 프로그램을 별도로 개발한다. 하지만 AI에 최적화된 컴퓨터를 만들려면 이에 특화된 전용 회로를 설계해야 하고, SW도 AI 모델 구조를 HW가 더 잘 처리할 수 있도록 최적화해야 한다.서 소장은 “일반 컴퓨터가 평범한 자동차라면 서울대가 연구 중인 AI 연산 특화 컴퓨터는 레이싱카처럼 특정 작업을 훨씬 빠르고 효율적으로 수행하는 것이 목표”라고 설명했다.주요 연구로는 어텐션 연산을 빠르게 처리하는 전용 하드웨어 가속기 개발이 꼽힌다. 수조 개의 파라미터(매개변수)를 갖는 어텐션 연산은 딥러닝과 자연어 처리(NLP), 이미지 처리와 같은 AI 분야에서 핵심 역할을 한다. 어텐션 연산은 AI 모델이 데이터 중에서 어디에 집중할지, 무엇이 중요한지를 찾아내고 이에 집중하게 만든다. 책을 읽을 때 중요한 부분에 빨간펜으로 표시해가며 반복해 읽고 이해하는 것에 비유할 수 있다.이재욱 교수는 “어텐션 연산에 최적화된 칩으로 가속기를 만들었고, 측정 결과 연산량과 전력 소비를 기존 컴퓨팅의 절반 수준으로 줄이면서도 정확도를 유지했다”고 말했다. 어텐션 연산은 AI 연구와 개발에서 핵심적인 기술로 자리 잡는 추세다. 구글의 BERT, 마이크로소프트의 터닝 NLG, 페이스북의 RoBERTa, 삼성전자의 스마트폰 음성 인식 기술이 어텐션 연산의 대표 사례다.◇주목받는 로봇 학습 컴퓨팅서울대 컴퓨터연구소가 주목한 또 다른 차세대 연구는 ‘휴먼 AI’다. 서 소장은 “이 연구에는 컴퓨터 비전, 머신러닝, 3차원(3D) 모델링 등이 유기적으로 융합된다”며 “인간의 외형, 동작, 의류, 의사소통, 물체와의 상호작용을 AI가 정밀하게 이해하고 사실적으로 재현할 수 있을 것”이라고 설명했다. 주한별 교수는 연구소 내 연구시설인 ‘패러덱스(pardex)’에서 인간의 움직임을 여러 대의 카메라로 촬영해 인간 동작을 모사하는 AI 모델을 개발하고 이를 로봇으로 재현하는 기술을 연구하고 있다.이 과정에서 강조되는 기술이 HOI 모델링이다. 주 교수는 “HOI 모델링과 70대 이상의 카메라를 활용한 멀티센서 기반 3D 데이터 수집 시스템을 통해 고품질 학습 데이터를 확보하고 있다”며 “AI의 표현력과 적응력을 끌어올릴 것”이라고 말했다. HOI 모델링이 고도화되면 스마트 가전과 홈 오토메이션 분야에서 획기적인 변화가 일어날 것으로 예상된다.HOI 모델링이 적용된 AI는 사람의 동작을 보다 정교하게 이해해 스마트홈 기기가 사용자 행동을 예측하고 자동으로 작동할 수 있다. 사용자가 컵을 집으면 AI가 이를 감지해 정수기에서 물을 채우거나 요리를 시작하면 오븐을 적절한 온도로 설정하는 식이다. 로보틱스 및 스마트 제조 분야, 자율주행과 스마트 모빌리티 등 산업 현장에도 다양하게 적용할 수 있다. 주 교수는 “HOI 모델링을 적용한 협업 로봇은 작업자가 어떤 도구를 사용하려 하는지 인식하고 필요한 도구를 전달하거나 작업의 다음 단계를 예측해 준비한다”고 예를 들었다.◇수백 개 전신 근육도 디지털로 구현인간의 행동을 모방하는 ‘로봇 학습’은 휴머노이드 완성을 위한 필수 기술로 꼽힌다. 불과 몇 년 전까지만 해도 로봇 행동 모델은 코딩에 의존해 왔다. 정해진 대본에 따라 움직이는 배우에 비유할 수 있다. 하지만 인간처럼 미세한 움직임을 로봇으로 구현하려면 아주 사소한 행동 하나라도 구현할 수 있어야 하는데 이를 위해선 로봇이 스스로 행동을 배우도록 하는 것이 핵심이다.주 교수는 “로봇 학습은 동작 모사를 넘어 사람의 복잡한 신체 움직임과 물체를 다루는 방식까지 정밀하게 학습한다”며 “AI 기반 로봇이 실제 환경에서 사람의 역할을 대체하거나 보조할 능력을 갖추도록 하는 데 집중하고 있다”고 했다. 로봇이 인간이 처한 상황과 대화의 맥락까지 이해할 수 있다는 뜻이다. 향후 노동, 의료, 재난 대응, 노인 돌봄 등의 분야에서 큰 사회적 파급력을 가질 것으로 기대된다.근골격 디지털 트윈 모델링 및 시뮬레이션 기술도 컴퓨터연구소가 주목하는 차세대 연구 분야다. 정밀 의료와 헬스케어 분야에 특화된 기술로 인간 신체를 디지털 트윈으로 구현하는 것이 목표다....
포스트 대표 이미지
포스트 대표 이미지
포스트 대표 이미지

제79회 전기 컴퓨터공학부 졸업기념행사

제79회 전기 컴퓨터공학부 졸업기념행사를 2025년 2월 26일(수) 15시, 301동 118호에서 개최하였습니다. 이번 졸업기념행사는 총 졸업생 99명(학사 52명, 석사 29명, 박사 18명)을 대상으로 한 행사였으며, 우수 학위논문상과 굳센 인재상(Young Courage Award) 수여식이 함께 진행되었습니다.컴퓨터공학부 우수학위논문상은 김민정 박사(지도교수: 김건희), 박은화 박사(지도교수: 김선), 박정남 박사(지도교수: 원정담), 천명준 박사(지도교수: 김지홍), 로망 스토라이 석사(지도교수: 황승원), 김도현 학사(지도교수: 송용수), 민(Minh) 학사(지도교수: Chenglin Fan), 정다운 학사(지도교수: 하순회), 진채연 학사(지도교수: 김건희)에게 수여되었습니다. 굳센 인재상(Young Courage Award)는 대학 생활 동안 주변인 및 사회적 약자에게 긍정적인 영향을 미치고, 어려움을 극복하고 더 나은 미래를 만들어 나갈 수 있는 잠재력을 보여준 학생에게 수여되는 상으로, 김준혁, 민(Minh), 조승한 학생에게 수여되었습니다.​이번 행사에서는 학부장님의 축사와 대표 학생의 답사 이후에 오성진 테너가 졸업을 축하하는 의미에서 축가를 부르며 행사를 아름답게 장식하였습니다. 졸업생들과 가족, 친지, 교수 및 재학생 등 총 300여 명이 참석하여 졸업생들의 밝은 미래를 응원하였습니다....
포스트 대표 이미지

컴퓨터분야 쉬운전문용어를 보급한다. 제정위원회 위원장 이광근 교수

"울타리없는 세계경쟁에서 우리 학술이 일류로 앞서가는 장기전 비밀병기요?쉬운 전문용어입니다."이광근 교수가 위원장으로 있는 한국정보과학회 쉬운전문용어 제정위원회가 2024년 1월부터 조직되어 활동하고 있다. 한국정보과학회 산하 각 분야 연구회 소속 12명의 교수들과 국어학 및 국립국어원 전문가가 참여하고 있다. "억지 순우리말? 아닙니다. 소리뿐인 한문투? 아닙니다. 쉬운말 입니다.""외부로 글로벌하게 영어로 소통하기는 당연하고요. 내부로는 우리의 인력과 지력의 저변을 두텁게 하는데 모국어 쉬운말로 소통하기는 당연합니다. 요즘 k-컬쳐의 힘이 어디에서 오는지를 보면 당연합니다.""쉬운전문용어로 저변 인구를 넓히고 지력을 축적한 문화권이 늘 혁신을 이끌고 선두로 나섭니다. 학술이나 문화의 역사가 늘 그런식이었죠." 위원회 결과물들은 포털 https://easyword.kr에 모이고 있다. 지금까지 제안/발굴된 1100여개 쉬운 전문용어들이 모여있다. 이 포탈에는 누구나 쉬운전문용어를 찾고 참여하고 제안할 수 있다. https://easyword.kr/why에는 이런 노력의 배경, 쉬운전문용어 만들때 원칙, 쓰이는 용도가 안내되어 있다. 위원회 취지를 여기 인용하면 다음과 같다:전문지식이 전문 학자들에만 머문다면 그 분야는 그렇게 쇠퇴할 수 있다. 저변이 좁아지고 깊은 공부를 달성하는 인구는 그만큼 쪼그라들 수 있다. 전문지식이 보다 많은 사람들에게 널리 퍼진다면, 그래서 더 발전할 힘이 많이 모이는 활기찬 선순환이 만들어진다면. 그러면 그 분야를 밀어올리는 힘은 나날이 커질 수 있다. 더 많은 사람들이 더 나은 성과를 위한 문제제기와 답안제안에 참여할 수 있고, 전문가의 성과는 더 널리 이해되고 더 점검받을 수 있게된다. 그러므로 쉬운 전문용어가 어떨까. 전문개념의 핵심을 쉽게 전달해주는 전문용어. 학술은 학술의 언어를 --우리로서는 소리로만 읽을 원어나 한문을-- 사용해야만 정확하고 정밀하고 경제적일까? 아무리 정교한 전문지식이라도 쉬운 일상어로 짧고 정밀하게 전달될 수 있다. 시에서 평범한 언어로 밀도 있게 전달되는 정밀한 느낌을 겪으며 짐작되는 바이다. 쉬운 전문용어가 활발히 만들어지고 테스트되는 생태계. 이것이 울타리없는 세계경쟁에서 우리를 깊고 높게 키워줄 비옥한 토양이다. 시끌벅적 쉬운말로 하는 학술의 재미는 말할것도 없다....
포스트 대표 이미지

이재진 교수 연구진 창업기업 모레, '최강 한국어 성능' 갖춘 102B 오픈 소스 모델 공개..."GPT-4o·큐원2 모두 능가"

이재진 교수 연구진이 창업한 인공지능(AI) 인프라 솔루션 전문 모레(MOREH, 대표 조강원)는 자체 개발 한국어 파운데이션 대형언어모델(LLM) ‘라마3-모티프-102B(Llama-3-Motif-102B)'를 허깅페이스에 오픈 소스로 공개한다고 3일 밝혔다.​모델 명칭에서도 알 수 있듯 '라마3.0 70B' 모델을 기반으로 한다. 1020억개로 매개변수를 대폭 확대한 만큼 새로운 파운데이션 모델로 볼 수 있으며, 특히 '한국어 답변 성능 강화'에 초점을 맞췄다고 전했다. ​국내 모델 전부가 매개변수를 밝히지는 않았기 때문에 공식적으로 비교할 수는 없지만, 국내 모델 중 가장 큰 모델일 것이라고 밝혔다. 업계에서는 네이버의 '하이퍼클로바X'가 70~80B로 추정하고 있다.​모티프는 사전 훈련 언어모델과 지시 사항을 따르는 데 특화한 인스트럭트 모델 등 2가지 버전으로 공개됐다. ​임정환 모레 AI 디렉터는 "모델 개발 목표는 크게 세개의 프로세스로 구성됐다"라고 밝혔다.​우선 "기존 모델(라마)이 커버하는 스펙트럼 안에서 성능을 극대화하는 경우로, 이는 오픈 LLM 리더보드 1위를 통해 이미 달성한 바 있다"라고 말했다.​실제 모레는 올해 초 영어 LLM 'MoMo-70B'을 선보여 허깅페이스의 글로벌 ‘오픈 LLM 리더보드’에서 77.29점을 기록, 세계 1위를 기록한 바 있다. 당시에는 모델 개발 착수에서 1위 달성까지 단 3개월 만에 거둔 성과라고 설명했다.​임정환 디렉터는 "이런 개발 과정에서 얻은 노하우를 바탕으로 더 복잡한 문장(depth)을 학습하고, 대화에서 유려한 표현(width)을 만들어내는 모티프를  완성할 수 있었다"라며 "이는 두번째 프로세스인 '기존 모델 이상의 성과를 만들어 내는 것'에 해당한다"라고 전했다. ​이어 "라마3 70B는 한국어 성능이 어느 정도 갖춰진 것은 사실이지만, 영어에는 훨씬 못 미치는 게 사실"이라며 "한국어 성능을 최대로 끌어올린 것이 이번 오픈 소스 모델의 최종 목표"라고 말했다.​​2024년 12월 3일 기준 KMMLU 벤치마크 성능 비교표다. KMMLU는 기존 평가에 활용되는 문항을 단순히 한국어로 번역한 것이 아니라 인문학, 사회학, 과학-기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성돼 있다.(사진=모레)​실제 한국판 AI 평가 체계인 ‘KMMLU’ 벤치마크에서 모티프는 64.74점으로 1위를 차지했다. 이는 기반 모델인 라마 3 70B의 54.5점을 10점이상 뛰어넘은 결과다.​또 오픈AI의 'GPT-4o(64.11점)'와 오픈 소스 최강으로 알려진 알리바바의 '큐원2(64.1)'까지 넘어섰다.​LG AI연구원이나 네이버, 업스테이지 등의 모델보다 뛰어난 한국어 벤치마크 점수를 기록했다.​이런 성능은 1870억 토큰에 달하는 방대한 양의 한국어 학습량과 독자적인 학습 기법을 동원했다는 것으로 설명했다. 웹상에서 수집 가능한 글뿐만 아니라, 공개된 전문 분야 문서(국내 특허 및 연구 보고서 등)를 학습 데이터로 활용했다. 또 국내 최대 규모 한국어 정제 데이터를 확보해 학습에 포함했다.​무엇보다 AI 모델 개발을 위한 최적의 인프라와 AI 플랫폼 기술을 자체 개발해 보유하고 있기 때문이라고 전했다. 모레의 ‘모아이(MoAI)’ 플랫폼은 고도의 병렬화 처리 기법을 통해 LLM을 효율적으로 개발하고 학습할 수 있도록 돕는다.​실제로 모레는 GPU 가상화 기술 등 소프트웨어 기술로 글로벌 반도체 기업 텐스토렌트와 협업을 진행 중이다. 이는 엔비디아의 GPU와 쿠다 소프트웨어 독점 구조를 넘어서는 것을 목표로 한다. ​추론에 집중하는 다른 후발주자들과는 달리, 텐스토렌트 NPU와 모레 SW를 결합한 AI 데이터센터 솔루션은 추론뿐만 아니라 파운데이션 모델 학습까지 폭넓게 사용할 수 있다고 강조했다. 이미 상당한 개발을 진행, 2025년 상반기 중에 상용화 및 출시할 예정이라고 밝혔다. ​임정환 AI 디렉터는 "이처럼 모레는 글로벌 빅테크와의 경쟁에 나서고 있다"라고 강조했다.​또 "모델 개발 측면에서 세번째이자 최종 목표는 다른 모델을 기반으로 하는 것이 아니라 처음부터 완전한 한국형 파운데이션 LLM을 만들어내는 것"이라고 말했다. ​이를 가속화하기 위해 자회사 설립도 계획 중이다. 특히 '멀티모달모델 개발'도 주요 목표 중 하나라고 전했다. 파운데이션 모델의 경우 작은 규모부터 시작해 점차적으로 키워나갈 예정이다. 때문에 '소형' 매개변수 모델도 충분히 가능성 있는 미래라고 전했다. 의료, 법률, 금융 등 전문 영역에 특화한 LLM 개발도 목표다.​조강원 모레 대표는 "고성능 LLM을 누구나 활용할 수 있도록 오픈 소스로 공개하는 것은 무엇보다 국내 AI 생태계가 보다 발전적인 방향으로 성장, 소버린 AI에 기여하기 위함이다"라며 “국내 IT 기업이 LLM을 오픈 소스로 공개하는 매우 이례적인 사례인 만큼 많은 기업들이 적극 활용해주시면 좋겠다”라고 말했다. ​한편, 모레는 인재 채용에도 적극 나서고 있다. "글로벌 빅테크 수준의 파운데이션 모델을 갖추는 여정에 많은 관심을 부탁한다"라고 전했다. ​...
포스트 대표 이미지

박재식 교수 연구진, 빠르고 정확한 드래그 기반 이미지 에디팅 기술 개발로 세계 선도

1초 내외로 실행되는 feedforward 방식의 초고속 드래그 기반 이미지 편집 파이프라인 개발최신 드래그 기반 이미지 편집 기술 대비 메모리 사용량 5배 절감 및 처리 속도 75배 향상실생활 비디오 데이터로 학습된 두 종류의 생성모델 (GAN/Diffusion)의 조합을 통해, 자연스럽고 사실적인 이미지 편집 구현​박재식 교수 연구진이 실시간 수준의 드래그 기반 이미지 편집을 가능하게 하는 InstantDrag 기술을 개발하였다. 드래그 기반 이미지 에디팅 (drag-based image editing)은 사용자가 이미지의 특정 부분을 드래그하면, 생길 수 있는 움직임을 고려하여 자연스럽게 이미지를 편집하는 기술이다. 기존의 드래그 기반 이미지 편집 기술들은 이미지 인버전 (inversion)과 이미지 별 최적화 (per-image optimization) 방식에 의존하여 편집 시간이 길고 많은 계산 자원을 필요로 했다. 또한 움직일 수 있는 영역을 지정하는 마스크 (movable region mask)와 텍스트 프롬프트와 같은 추가 입력이 필요해 편의성이 떨어졌다. 연구진은 이러한 문제를 해결하기 위해 최적화 과정이 필요 없는 feedforward 방식의 편집 파이프라인을 제안하였다. 이미지 편집 과정을 움직임 생성 (motion generation)과 움직임 기반 이미지 생성 (motion-conditioned image generation) 두 단계로 분리하는 새로운 접근법을 도입했으며, 사용자 편의성 (interactivity)을 극대화하기 위해 원본 이미지와 드래그 명령어만으로 동작하는 알고리즘을 개발했다. InstantDrag의 핵심 구성 요소는 다음과 같은 두 개의 네트워크이다:FlowGen: 적대적 생성 신경망 (GAN) 기반으로, 사용자의 드래그 입력을 정교한 움직임 정보(dense optical flow)로 변환FlowDiffusion: 확산 모델 (Diffusion) 기반으로, 입력 이미지와 생성된 움직임 정보를 바탕으로 고품질 이미지 편집 수행실제 비디오 데이터로 학습된 위 두 네트워크의 결합으로, InstantDrag 파이프라인은 추가적인 마스크나 텍스트 프롬프트 입력 없이도 1초 이내에 자연스러운 이미지 편집이 가능하다. 얼굴 영상 데이터셋과 일반적인 장면들에서의 실험을 통해, 우수한 편집 품질을 유지하면서도 기존 기술 대비 메모리 사용량은 5배 감소하고 처리 속도는 75배 향상됨을 입증했다. 본 연구는 컴퓨터 그래픽스 분야 최우수 학술대회 중 하나인 SIGGRAPH Asia 2024에 발표될 예정이다.​"InstantDrag: Improving Interactivity in Drag-based Image Editing", Joonghyuk Shin, Daehyeon Choi, Jaesik Park, SIGGRAPH Asia Conference Papers 2024....
포스트 대표 이미지
포스트 대표 이미지

이재진 교수 연구진, 삼성 인공지능/컴퓨터공학 챌린지 2024 최우수상 수상

​이재진 교수 연구실 소속의 팀(ShallowSpeed : 배수민, 강민규, 김진표)이 삼성전자 SAIT에서 주최하여 8월 1일부터 10월 6일까지 진행된 "삼성 인공지능/컴퓨터공학 챌린지 2024″의 컴퓨터공학 분야에서 최우수상을 수상하였다. 대규모 언어 모델(Large Language Model)이 다양한 분야에서 높은 성과를 보여주면서 수요가 폭발적으로 증가함에 따라 On-device 시스템에서 제한된 자원으로 추론하는 것이 중요해졌다. 이러한 추세에 맞추어, 올해로 4회를 맞는 "삼성 인공지능/컴퓨터공학 챌린지 2024″는 컴퓨터공학 분야 과제에서 jetson 디바이스 내 한정된 메모리와 GPU를 활용하여 시스템 및 알고리즘 최적화를 통해 대규모 언어 모델의 정확도를 떨어뜨리지 않으면서 추론 성능을 높이는 것이었다. 해당 팀은 기존 GPU 연구 경험을 바탕으로 다양한 최적화를 적용하여 Phi-3-medium 모델로 text generation 추론 시간을 단축하였고. 그 결과 baseline 대비 200배 이상 가속하여 1위를 기록하는 성과를 내었다. 챌린지에 참여한 ShallowSpeed 팀의 배수민 학생은 "이번 챌린지를 통해 새로 접한 환경에서 문제를 해결해 나가는 능력을 키울 수 있었고, 최적화를 진행해나가면서 새로운 지식들을 얻어갈 수 있었던 유익한 경험이었다"고 밝혔다. 최우수상 팀에는 부상으로 상금 1,000만 원이 수여된다....
포스트 대표 이미지