김건희 교수 연구팀, 자연어처리 최우수학회 NAACL 2025 음성인식 부분 최고 논문상 수상
AI가 사람처럼 말버릇, 추임새, 끼어들기 등 대화 행동을 이해하고 재현하는 음성 대화 기술이 개발되었다.연구팀은 세계 최대 규모의 대화 행동 기반 음성 데이터셋인 Behavior-SD를 구축하고, 이를 바탕으로 자연스러운 AI 음성 대화 모델 BeDLM을 제안했다.해당 기술은 팟캐스트 제작, 상담 AI, 개인화 음성비서 등 사람과 상호작용이 중요한 다양한 분야에 활용 가능성이 높다.사람들이 대화를 할 때는 정보를 주고 받는 것 외에도 “음…”, “그니까…” 같은 말버릇을 쓰고, 적절한 순간에 “맞아”, “응” 같은 추임새를 넣거나, 때로는 상대의 말을 끊기도 하면서 소통한다. 하지만 기존 인공지능 대화 시스템은 이런 미묘한 말버릇이나 대화 습관을 반영하지 못해, 말투가 부자연스럽고 기계적으로 느껴질 수밖에 없었다.김건희 교수 연구팀(이세훈 박사과정, 김강욱 학사과정)은 이러한 문제를 해결하기 위해, 사람의 말버릇과 추임새(backchannel), 끼어들기(interruption), 감정 표현 등 대화 행동을 정밀하게 반영한 음성 데이터셋과 대화 생성 기술을 함께 제안하였다.연구팀은 먼저 10만 개 이상, 총 2천 시간 분량의 대규모 대화 행동 기반 음성 데이터셋인 Behavior-SD를 구축했다. 이 데이터는 단순한 문장이 아니라, 각 화자의 말투와 말버릇이 행동 단위로 주석 처리되어 있어, 실제 사람 간의 자연스러운 대화를 정밀하게 구현할 수 있도록 설계되었다.이 데이터를 바탕으로 개발된 행동 기반 대화 생성 모델(BeDLM)은, 대화 상황과 화자의 대화 행동 패턴을 입력으로 받아, 사람 간 대화에 가까운 음성 대화를 쉽게 생성할 수 있는 AI 기술을 구현했다. 대화 행동을 반영하여 말버릇을 자연스럽게 끼워 넣는다. 이 기술은 생동감 있는 팟캐스트 콘텐츠 제작, 개인 맞춤형 음성 비서, 정서적 반응이 필요한 상담 AI 등, 자연스러운 말하기와 듣기가 중요한 응용 분야에서 활용도가 높다.이 연구는 세계 최고 수준의 자연어처리 학회인 NAACL 2025에서 구두로 발표되었으며, 음성 처리 및 음성 언어 이해(Speech Processing and Spoken Language Understanding) 분야에서 최우수 논문에게 수여되는 Senior Area Chair Award를 수상했다. Senior Area Chair Award 는 자연어처리 핵심 9개 분야에서 각 최우수 논문 1편씩을 선정하였다.이 연구에서 개발된 Behavior-SD 데이터셋과 코드는 모두 오픈소스로 공개되어, 국내외 연구자 누구나 자유롭게 활용할 수 있다. 관련 기술의 확산과 후속 연구를 촉진할 수 있을 것으로 기대된다.[연구지원]본 연구는 정보통신기획평가원(IITP)의 ICT R&D 사업(No. RS-2022-II220156, No. RS-2019-II191082), ITRC 지원사업(No. IITP-2025-RS-2024-00437633), 서울대학교 글로벌 우수연구센터 사업, NRF 기초연구사업(RS-2023-00274280)의 지원을 받아 수행되었다.[논문 정보]“Behavior-SD: Behaviorally Aware Spoken Dialogue Generation with Large Language Models”, Sehun Lee*, Kang-wook Kim*, Gunhee Kim, 2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics (NAACL 2025)...