박재식 교수팀, AgentX–AgentBeats Challenge Game Agent 분야 Phase 1·2 우승

서울대학교 컴퓨터공학부 박재식 교수가 지도하는 학부생 팀이 UC Berkeley RDI (UC 버클리 책임감 있는 분산형 지능 센터)가 주최한 AgentX–AgentBeats Challenge의 Game Agent 분야에서 우수한 성과를 거두었다.
본 팀은 Phase 1에서 Minecraft 게임 환경 기반 에이전트 평가 벤치마크인 “Minecraft Benchmark”를 구축하여 Game Agent 분야 1위를 기록했으며, Phase 2에서는 해당 벤치마크에서 정해진 목표에 따라 Minecraft 게임을 플레이하는 AI 에이전트 “VGI-Player”를 개발해 Game Agent 분야 공동 1위를 차지하며, Game Agent 분야의 모든 Phase에서 우승하는 성과를 거두었다.
AgentX–AgentBeats Challenge는 Berkeley RDI가 Agentic AI MOOC 및 약 4만 명 규모의 글로벌 학습자 커뮤니티와 함께 개최한 에이전트 AI 평가 대회이다. 대회는 기존 벤치마크를 에이전트형 평가 환경으로 확장하거나 새로운 벤치마크를 구축하는 Phase 1과, Phase 1에서 선정된 벤치마크를 해결하는 범용 AI 에이전트를 개발하는 Phase 2로 구성되었다. DeepMind, OpenAI, Lambda, Nebius, Amazon, Snowflake, Hugging Face, Sierra 등 여러 글로벌 AI·클라우드 기업이 스폰서로 참여했으며, 전체 상금 및 크레딧 규모는 100만 달러 이상이다.
본 팀이 Phase 1에서 개발한 Minecraft Benchmark는 기존 MCU Benchmark를 AgentBeats 프레임워크에 맞게 에이전트형 평가 환경으로 확장한 것이다. 이 벤치마크는 Minecraft 시뮬레이터 안에서 자원 탐색 및 채굴, 건물 구축, 아이템 생성 등 다양한 단기 과제와, 순차적 의사결정 및 지속적인 계획 능력을 요구하는 장기 과제를 함께 평가하도록 설계되었다. 또한 Minecraft 시뮬레이션 환경에서 산출되는 보상과 게임 플레이 비디오 기반 작업 수행 능력 평가를 결합해, 복잡한 상호작용 환경에서 범용 에이전트의 작업 수행 능력을 측정할 수 있도록 했다.
Phase 2에서 개발한 VGI-Player는 Minecraft 환경에서 주어진 자연어 목표를 이해하고, 게임 화면을 관찰하면서 스스로 다음 행동을 결정해 과제를 수행하는 AI 에이전트이다. VGI-Player는 비교적 간단한 과제는 직접적인 명령 실행을 통해 빠르게 해결하고, 여러 단계가 필요한 복잡한 과제는 목표를 작은 단계로 나누어 차례대로 수행하도록 설계되었다. 또한 시각 정보와 언어 명령을 함께 이해하는 VLA 모델을 활용해, 게임 화면에서 보이는 상황을 해석하고 이를 실제 Minecraft 조작 행동으로 연결했다. 이를 통해 VGI-Player는 단순히 정해진 명령을 반복하는 것이 아니라, 변화하는 게임 상황에 맞추어 목표 달성을 위한 행동을 선택할 수 있도록 구현되었다.
이번 성과는 단순히 Minecraft 게임을 수행하는 에이전트를 개발한 것에 그치지 않고, 복잡한 상호작용 환경에서 AI 에이전트를 어떻게 표준화·재현 가능하게 평가할 수 있는지에 대한 벤치마크 설계와, 해당 벤치마크를 해결하기 위한 멀티모달 계획·행동 에이전트 개발을 함께 수행했다는 점에서 의미가 있다. 특히 Minecraft와 같은 샌드박스형 환경은 부분 관측, 장기 계획, 시각 기반 제어, 도구 사용, 순차적 의사결정이 결합된 도전적인 문제로, 향후 로보틱스 및 범용 에이전트 연구와도 밀접하게 연결된다.
특히 본 팀은 학부생으로 구성된 점에서 의미가 있다. 참여 학생 구성은 다음과 같다.
- Phase 1 우승 (Minecraft Benchmark 개발 및 AgentBeats Green Agent 구현): 김우성(서울대 컴공), 배준익(서울대 컴공), 김현구(연세대 전기전자)
- Phase 2 공동 우승 (VGI-Player 개발 및 Minecraft Benchmark 기반 Purple Agent 구현): 김우성(서울대 컴공), 김현구(연세대 전기전자)
본 대회를 통해 얻은 연구 경험은 향후 샌드박스형 시뮬레이션 환경을 넘어 로보틱스, embodied AI, 범용 에이전트 평가 등 복잡한 장기 의사결정이 요구되는 분야로 확장될 예정이다.
