박재식 교수 연구진, 복잡한 실세계 문제 해결하는 AI 플래닝 기술 TDP 개발
기존 AI 플래너의 한계를 극복하는 제로샷(zero-shot) 테스트 시간(test-time) 플래닝 프레임워크 개발탐색(Exploration)과 활용(Exploitation)의 균형을 맞추는 트리 탐색(tree search) 기반의 이중(bi-level) 샘플링 접근법 제시미로 탐색, 로봇 팔 제어 등 복잡한 문제에서 기존 최신 기술 대비 뛰어난 성능 입증박재식 교수 연구진이 복잡하고 예측 불가능한 환경에서도 AI가 최적의 행동 계획을 수립할 수 있는 새로운 기술, TDP(Tree-guided Diffusion Planner)를 개발하였다. 사전 학습된 확산 모델(diffusion model)을 활용한 AI 플래닝은 주어진 문제를 해결하기 위한 일련의 행동 순서를 생성하는 효과적인 접근법이다. 기존 기술들은 보상(reward) 구조가 단순하고 미분 가능한 볼록(convex)한 문제에서는 잘 작동했지만, 여러 개의 상충하는 목표가 있거나(non-convex), 특정 규칙을 반드시 지켜야 하는(non-differentiable) 복잡한 실제 환경에서는 최적의 해를 찾지 못하고 국소 최적해(local optima)에 머무르는 한계를 보였다. 또한, 새로운 문제에 적용하기 위해 추가적인 학습이나 전문가 데이터가 필요하여 유연성이 떨어졌다.연구진은 이러한 문제를 해결하기 위해, 추가 학습 없이 테스트 시간에 바로 적용 가능한 제로샷(zero-shot) 플래닝 프레임워크인 TDP를 제안하였다. TDP는 행동 계획 수립을 트리 탐색 문제로 재구성하여, 광범위한 가능성을 탐색(Exploration)하는 단계와 주어진 목표에 맞춰 계획을 구체화하는 활용(Exploitation) 단계를 유기적으로 결합했다. TDP의 핵심적인 이중(bi-level) 샘플링 과정은 다음과 같다:상위 가지 생성 (Parent Branching):훈련 없이 사용 가능한 파티클 유도(particle guidance) 방식을 통해 서로 다른 다양한 초기 경로들을 생성하여 탐색 공간을 넓힌다.하위 트리 확장 (Sub-Tree Expansion):생성된 다양한 부모 경로들을 바탕으로, 주어진 목표(task objective)에 최적화된 자식 경로들을 빠르고 정교하게 다듬는다.이러한 이중 샘플링 구조를 통해 TDP는 기존의 단순한 그래디언트 기반 안내(gradient guidance) 방식이 빠지기 쉬운 국소 최적해 문제를 효과적으로 해결한다. 연구진은 (1) 미로 속 중간 목표물 찾기, (2) 로봇 팔을 이용해 최적 위치에 블록 쌓기, (3) 개미형 로봇의 여러 목표 지점을 순서대로 방문해야 하는 탐색 등 세 가지 복잡한 테스크에서 TDP가 기존 최첨단 기술들을 모두 능가하는 성능을 보임을 실험적으로 입증했다. 본 연구는 인공지능 분야 최고 권위 학술대회 중 하나인 NeurIPS2025에 정식 논문으로 채택되어 12월 중 발표될 예정이며, 이 논문을 포함하여 박재식 교수 연구실에서는 총 4편의 논문을 NeurIPS에 발표할 예정이다....








