이재진 교수 연구진이 창업한 인공지능(AI) 인프라 솔루션 전문 모레(MOREH, 대표 조강원)는 자체 개발 한국어 파운데이션 대형언어모델(LLM) ‘라마3-모티프-102B(Llama-3-Motif-102B)'를 허깅페이스에 오픈 소스로 공개한다고 3일 밝혔다.
모델 명칭에서도 알 수 있듯 '라마3.0 70B' 모델을 기반으로 한다. 1020억개로 매개변수를 대폭 확대한 만큼 새로운 파운데이션 모델로 볼 수 있으며, 특히 '한국어 답변 성능 강화'에 초점을 맞췄다고 전했다.
국내 모델 전부가 매개변수를 밝히지는 않았기 때문에 공식적으로 비교할 수는 없지만, 국내 모델 중 가장 큰 모델일 것이라고 밝혔다. 업계에서는 네이버의 '하이퍼클로바X'가 70~80B로 추정하고 있다.
모티프는 사전 훈련 언어모델과 지시 사항을 따르는 데 특화한 인스트럭트 모델 등 2가지 버전으로 공개됐다.
임정환 모레 AI 디렉터는 "모델 개발 목표는 크게 세개의 프로세스로 구성됐다"라고 밝혔다.
우선 "기존 모델(라마)이 커버하는 스펙트럼 안에서 성능을 극대화하는 경우로, 이는 오픈 LLM 리더보드 1위를 통해 이미 달성한 바 있다"라고 말했다.
실제 모레는 올해 초 영어 LLM 'MoMo-70B'을 선보여 허깅페이스의 글로벌 ‘오픈 LLM 리더보드’에서 77.29점을 기록, 세계 1위를 기록한 바 있다. 당시에는 모델 개발 착수에서 1위 달성까지 단 3개월 만에 거둔 성과라고 설명했다.
임정환 디렉터는 "이런 개발 과정에서 얻은 노하우를 바탕으로 더 복잡한 문장(depth)을 학습하고, 대화에서 유려한 표현(width)을 만들어내는 모티프를 완성할 수 있었다"라며 "이는 두번째 프로세스인 '기존 모델 이상의 성과를 만들어 내는 것'에 해당한다"라고 전했다.
이어 "라마3 70B는 한국어 성능이 어느 정도 갖춰진 것은 사실이지만, 영어에는 훨씬 못 미치는 게 사실"이라며 "한국어 성능을 최대로 끌어올린 것이 이번 오픈 소스 모델의 최종 목표"라고 말했다.
2024년 12월 3일 기준 KMMLU 벤치마크 성능 비교표다. KMMLU는 기존 평가에 활용되는 문항을 단순히 한국어로 번역한 것이 아니라 인문학, 사회학, 과학-기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성돼 있다.(사진=모레)
실제 한국판 AI 평가 체계인 ‘KMMLU’ 벤치마크에서 모티프는 64.74점으로 1위를 차지했다. 이는 기반 모델인 라마 3 70B의 54.5점을 10점이상 뛰어넘은 결과다.
또 오픈AI의 'GPT-4o(64.11점)'와 오픈 소스 최강으로 알려진 알리바바의 '큐원2(64.1)'까지 넘어섰다.
LG AI연구원이나 네이버, 업스테이지 등의 모델보다 뛰어난 한국어 벤치마크 점수를 기록했다.
이런 성능은 1870억 토큰에 달하는 방대한 양의 한국어 학습량과 독자적인 학습 기법을 동원했다는 것으로 설명했다. 웹상에서 수집 가능한 글뿐만 아니라, 공개된 전문 분야 문서(국내 특허 및 연구 보고서 등)를 학습 데이터로 활용했다. 또 국내 최대 규모 한국어 정제 데이터를 확보해 학습에 포함했다.
무엇보다 AI 모델 개발을 위한 최적의 인프라와 AI 플랫폼 기술을 자체 개발해 보유하고 있기 때문이라고 전했다. 모레의 ‘모아이(MoAI)’ 플랫폼은 고도의 병렬화 처리 기법을 통해 LLM을 효율적으로 개발하고 학습할 수 있도록 돕는다.
실제로 모레는 GPU 가상화 기술 등 소프트웨어 기술로 글로벌 반도체 기업 텐스토렌트와 협업을 진행 중이다. 이는 엔비디아의 GPU와 쿠다 소프트웨어 독점 구조를 넘어서는 것을 목표로 한다.
추론에 집중하는 다른 후발주자들과는 달리, 텐스토렌트 NPU와 모레 SW를 결합한 AI 데이터센터 솔루션은 추론뿐만 아니라 파운데이션 모델 학습까지 폭넓게 사용할 수 있다고 강조했다. 이미 상당한 개발을 진행, 2025년 상반기 중에 상용화 및 출시할 예정이라고 밝혔다.
임정환 AI 디렉터는 "이처럼 모레는 글로벌 빅테크와의 경쟁에 나서고 있다"라고 강조했다.
또 "모델 개발 측면에서 세번째이자 최종 목표는 다른 모델을 기반으로 하는 것이 아니라 처음부터 완전한 한국형 파운데이션 LLM을 만들어내는 것"이라고 말했다.
이를 가속화하기 위해 자회사 설립도 계획 중이다. 특히 '멀티모달모델 개발'도 주요 목표 중 하나라고 전했다. 파운데이션 모델의 경우 작은 규모부터 시작해 점차적으로 키워나갈 예정이다. 때문에 '소형' 매개변수 모델도 충분히 가능성 있는 미래라고 전했다. 의료, 법률, 금융 등 전문 영역에 특화한 LLM 개발도 목표다.
조강원 모레 대표는 "고성능 LLM을 누구나 활용할 수 있도록 오픈 소스로 공개하는 것은 무엇보다 국내 AI 생태계가 보다 발전적인 방향으로 성장, 소버린 AI에 기여하기 위함이다"라며 “국내 IT 기업이 LLM을 오픈 소스로 공개하는 매우 이례적인 사례인 만큼 많은 기업들이 적극 활용해주시면 좋겠다”라고 말했다.
한편, 모레는 인재 채용에도 적극 나서고 있다. "글로벌 빅테크 수준의 파운데이션 모델을 갖추는 여정에 많은 관심을 부탁한다"라고 전했다.