송현오 교수 연구진, 최고 성능의 이미지 분류 신경망 적대적 방어 알고리즘 개발

소셜 미디어 등의 실제 어플리케이션에 분류 신경망의 적용 가능성을 크게 향상
기존 알고리즘 대비 적대적 강건성 분류 정확도 최대 31%p 향상

송현오 교수 연구진이 이미지 분류 신경망의 적대적 공격(adversarial attack)에 대한 강건성을 크게 향상시키는 적대적 방어 알고리즘을 개발하였다. 본 알고리즘을 통해 신경망 모델을 소셜 미디어, 웹 이미지 검색 등의 이미지 기반 어플리케이션에 더욱 안전하게 적용할 수 있을 것으로 기대한다.

현재의 합성곱 신경망(convolutional neural network) 기반의 이미지 분류 네트워크는 입력 이미지를 약간만 변화시켜도 이를 잘못 분류하게되는 심각한 취약점을 지니고 있다. 이러한 현상은 사용자가 자유롭게 이미지를 업로드 할 수 있는 인스타그램 등의 소셜 미디어상에서 더욱 심각한 상황을 초래할 수 있는데, 사용자가 일상 사진을 업로드 하는 과정에서 공격자가 이를 중간에 가로채어 포르노와 같은 악의적인 클래스로 분류되도록 변화시킬 수 있다. 이러한 문제점을 해결하기 위해 송현오 교수 연구진은 선제적으로 이미지를 변형하여 적대적 공격을 무력화시킬 수 있는 이중 구조 최적화(bi-level optimization) 기반의 이미지 강건화 알고리즘을 제안하였다. 개발된 알고리즘은 이미지넷(ImageNet-1k) 벤치마크 데이터셋에서 강건성 분류 정확도를 기존 알고리즘 대비 최대 31%p 향상하는 성과를 거두었다.

SNU-NAVER Hyperscale AI Center의 지원을 받아 진행된 이번 연구 결과는 AAAI 2022에서 발표될 예정이다.

Preemptive Image Robustification for Protecting Users against Man-in-the-Middle Adversarial Attacks”, Seungyong Moon, Gaon An, Hyun Oh Song.

Monday, January 3rd 2022