이재진 교수 연구팀, 고성능 한국어 LLM 개발
천문학적 비용을 들이지 않고 고성능 한국어 '거대 언어 모델(LLM)’을 개발할 수 있다는 점이 입증됐다. LLM은 방대한 양의 텍스트 데이터를 학습해 인간 언어를 이해하고 생성하는 인공지능(AI) 모델이다. 이재진 서울대 데이터사이언스대학원 교수 연구팀이 영어 기반 언어 모델인 ‘라마(Llama)’를 개량해 한국어에 특화된 언어 모델인 ‘Llama-Thunder-LLM’, 한국어 전용 토크나이저 ‘Thunder-Tok’, 한국어 LLM 성능을 객관적으로 평가하는 ‘Thunder-LLM 한국어 벤치마크’를 개발하였다. 토크나이저는 문장을 언어 모델이 이해할 수 있는 단위인 ‘토큰’으로 쪼개는 도구이고 벤치마크는 특정 기준과 비교해 성능을 측정하고 평가하는 도구다. 한국어에 특화된 LLM을 만들려면 개발에 막대한 비용이 든다. LLM 구축을 위한 데이터가 한정적이라는 한계도 있다. LLM이 대기업과 해외 빅테크 기업 중심으로 개발돼온 이유다. 중소 연구기관이나 대학에서는 LLM 연구개발을 하기 어렵다. 연구팀은 데이터 수집부터 사후 학습까지 언어 모델 학습의 모든 단계를 자체 진행해 중국 LLM ‘딥시크’처럼 제한된 자원으로 고성능 언어 모델을 구축할 수 있다는 점을 입증했다. Llama-Thunder-LLM은 3TB(테라바이트, 1TB=1024GB) 크기의 한국어 웹 데이터를 수집·전처리한 다음 라마 모델에 연속 학습과 사후 학습 등의 개량 기법을 적용한 한국어 특화 LLM이다. 연속 학습은 기존 모델에 새로운 데이터를 추가로 학습시켜 능력을 확장하는 과정이고 사후 학습은 사용자의 질문·응답 등으로 추가 미세조정하는 학습 과정이다. 한국어의 문법적 특성을 반영한 토크나이저 Thunder-Tok은 기존 라마 토크나이저 대비 토큰 수를 약 44% 절약해 추론 속도 및 학습 효율성을 높였다. 토큰 수가 줄면 AI 모델 운영 비용이 감소한다. 연구팀이 자체 개발한 ‘한국어 평가용 데이터셋’을 포함한 Thunder-LLM 한국어 벤치마크는 한국어 LLM 성능을 객관적이고 체계적으로 평가할 수 있는 기반을 제공한다.이재진 교수는 “이번 연구는 학계도 자주적인 LLM 개발이 가능하다는 점을 입증했고 국내 소버린 AI(자국 AI)에 기여한 의미 있는 결과”라며 “한국어 기반 LLM 및 토크나이저, 벤치마크 데이터셋을 온라인에 공개하고 개발 과정 또한 상세히 기술해 누구나 후속 및 재현 연구에 활용할 수 있도록 했다”고 말했다. 연구 성과는 ‘초거대 AI모델 및 플랫폼 최적화 센터’ 웹페이지(https://champ.snu.ac.kr/resource)에 공개됐다. ※ 출처: 동아사이언스, 한국판 '딥시크' 만들 수 있다…서울대 연구진 '고성능 한국어 LLM' 개발...