박재식 교수 연구진이 실시간 수준의 드래그 기반 이미지 편집을 가능하게 하는 InstantDrag 기술을 개발하였다. 드래그 기반 이미지 에디팅 (drag-based image editing)은 사용자가 이미지의 특정 부분을 드래그하면, 생길 수 있는 움직임을 고려하여 자연스럽게 이미지를 편집하는 기술이다. 기존의 드래그 기반 이미지 편집 기술들은 이미지 인버전 (inversion)과 이미지 별 최적화 (per-image optimization) 방식에 의존하여 편집 시간이 길고 많은 계산 자원을 필요로 했다. 또한 움직일 수 있는 영역을 지정하는 마스크 (movable region mask)와 텍스트 프롬프트와 같은 추가 입력이 필요해 편의성이 떨어졌다.
연구진은 이러한 문제를 해결하기 위해 최적화 과정이 필요 없는 feedforward 방식의 편집 파이프라인을 제안하였다. 이미지 편집 과정을 움직임 생성 (motion generation)과 움직임 기반 이미지 생성 (motion-conditioned image generation) 두 단계로 분리하는 새로운 접근법을 도입했으며, 사용자 편의성 (interactivity)을 극대화하기 위해 원본 이미지와 드래그 명령어만으로 동작하는 알고리즘을 개발했다. InstantDrag의 핵심 구성 요소는 다음과 같은 두 개의 네트워크이다:
실제 비디오 데이터로 학습된 위 두 네트워크의 결합으로, InstantDrag 파이프라인은 추가적인 마스크나 텍스트 프롬프트 입력 없이도 1초 이내에 자연스러운 이미지 편집이 가능하다. 얼굴 영상 데이터셋과 일반적인 장면들에서의 실험을 통해, 우수한 편집 품질을 유지하면서도 기존 기술 대비 메모리 사용량은 5배 감소하고 처리 속도는 75배 향상됨을 입증했다. 본 연구는 컴퓨터 그래픽스 분야 최우수 학술대회 중 하나인 SIGGRAPH Asia 2024에 발표될 예정이다.
"InstantDrag: Improving Interactivity in Drag-based Image Editing", Joonghyuk Shin, Daehyeon Choi, Jaesik Park, SIGGRAPH Asia Conference Papers 2024.