송현오 교수 연구진이 질의 비의존적 KV 캐시 압축, 최적 비트 할당을 위한 분수 비트 LLM 양자화기, 강화 자기학습을 통한 언어 모델 기반 탐색 기법, 기계학습 기반 인과 추론 기법을 개발하였다.
1. 질의 비의존적 KV 캐시 압축 [1] (Oral Presentation, 최상위 0.35%): 본 논문은 LLM 추론 과정의 메모리와 답변 속도 향상을 위한 KV 캐시 압축 기법인 KVzip을 제안한다. ChatGPT와 같은 Transformer LLM은 사용자 정보나 이전 대화 내용과 같은 맥락 정보를 KV 쌍의 형태로 캐싱한다. KVzip은 이러한 맥락 정보를 담고 있는 KV 쌍의 중요도를 측정하고, 중요도가 낮은 KV 쌍을 캐시로부터 방출 함으로써 압축을 수행한다. 기존 기법들의 경우 압축 과정에서 LLM 추론 성능이 크게 감소하지만, KVzip은 30% 압축 수준까지 임의의 하위 태스크에 대한 성능을 유지한다. 특히 LLaMA, Qwen, Gemma와 같은 최첨단 언어모델의 수십 GB에 달하는 KV 캐시의 크기를 최대 4배까지 무손실로 줄이며, 디코딩 속도를 2배 향상하는 데 성공하였다. 아울러 KVzip은 NVIDIA의 KV 캐시 압축 라이브러리인 KVPress에 통합되어 최고 수준의 성능을 보이며, 사용자는 KVPress를 이용하여 간편하게 KVzip을 사용할 수 있다. 본 기술은 기업 규모의 대규모 검색 증강 (RAG) 시스템, 사용자의 개인화된 맥락을 사용하는 시스템 등에서 특별히 유용하게 적용될 수 있다.
2. 최적 비트 할당을 위한 분수 비트 LLM 양자화기 [2]: 본 논문은 LLM 경량화를 위해 분수 비트 양자화기 집합 Q-Palette와 이를 활용한 혼합 비트 양자화 기법을 제안한다. 최근 모델 가중치의 이상치를 완화하기 위해 가중치를 회전 변환하는 기법이 활발히 연구되고 있다. 본 연구에서는 회전 변환을 통해 가우시안화된 가중치 분포를 전제로 정보이론적으로 최적의 비트 할당을 분석하고, 이에 가까운 비트 할당을 위해 더욱 조밀한 분수 비트를 지원하는 양자화기 집합 Q-Palette를 개발하였다. 또한 비트 할당 과정에서 레이어 병합까지 함께 고려하는 혼합 비트 양자화 기법을 통해 추론 속도를 더욱 향상시켰다. 그 결과, 기존 NormalFloat 대비 적은 정확도 손실로 디코딩 속도를 36% 향상하는 데 성공하였다.
3. 강화 자기학습을 통한 언어 모델 기반 탐색 [3]: 본 논문은 거대 언어 모델의 탐색 효율을 향상시키기 위한 강화학습 알고리즘인 Guided-ReST를 제안한다. OpenAI o1과 같은 추론 특화 모델은 광범위한 탐색을 통해 높은 성능을 달성하지만, 이는 종종 비효율적인 탐색 경로와 불필요한 토큰 소모를 야기하는 한계가 있다. 이러한 문제를 해결하기 위해, 본 연구는 고품질의 합성 탐색 데이터를 생성하고 이를 바탕으로 모델이 스스로 더 나은 탐색 전략을 학습하도록 유도하는 새로운 강화 학습 알고리즘을 개발했다. 제안된 기법은 고난도 연산 추론 벤치마크인 Countdown에서 정확도와 추론 효율을 각각 10%, 50%씩 크게 향상시켰고, MATH-500과 AMC-23 같은 더욱 복잡한 실제 수학 문제에서도 그 확장성을 입증하였다.
4. 대규모 시스템에서도 효율적인 인과 추론 [4]: 본 논문은 대규모 시스템에서 전체 인과 그래프 추론 없이 표적 변수(target variable)의 인과 변수(causal variable)를 추론하는 지도학습 기반 인과 추론 방법을 제안한다. 기존 인과 추론 기법은 전체 인과 그래프 추론을 필요로 해 변수 수가 많은 거대 규모 시스템에서 연산 부담이 컸다. 본 연구는 시뮬레이션 데이터로 학습한 신경망 모델과 샘플링 기반 추론(subsampled inference) 전략을 적용해 변수 수 증가에 따라 알고리즘 복잡도가 선형적으로 확장될 수 있도록 설계하였다. 그 결과 대규모 유전자 조절 네트워크에서 최첨단의 인과 발견 성능을 달성하는 데 성공하였다.
해당 연구들은 머신러닝 최우수 학회인 NeurIPS 2025와 저널인 TMLR에 발표될 예정이다.
[1] “KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction”, Jang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song, NeurIPS 2025
[2] “Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment”, Deokjae Lee, Hyun Oh Song, NeurIPS 2025
[3] “Learning to Better Search with Language Models via Guided Reinforced Self-Training”, Seungyong Moon, Bumsoo Park, Hyun Oh Song, NeurIPS 2025
[4] “Large-Scale Targeted Cause Discovery with Data-Driven Learning”, Jang-Hyun Kim, Claudia Skok Gibbs, Sangdoo Yun, Hyun Oh Song, Kyunghyun Cho, TMLR