오픈소스 LLM과 한국어 모델의 생태계

2023/10/26   |  5 mins
오픈소스 llm과 한국어 모델의 생태계
 
  • 헤일리 (콘텐츠 커뮤니케이션)

  • 생성 AI와 오픈소스의 동향이 궁금하신 분

    한국어 LLM과 생태계에 대해 알고 싶으신 분

  • 최근 인공지능(AI) 시장의 판도는 다양한 오픈소스의 등장으로 변화하고 있습니다. LLM의 문턱을 낮춤으로써 생성형 AI 시대의 새로운 바람으로 떠오른 ‘오픈소스 LLM’과 이것이 LLM 생태계에 불러올 파급력은 어떠할지 살펴 봅니다.

  • ✔️ 오픈소스란?

    ✔️ 오픈소스 LLM의 등장

    ✔️ 주요 오픈소스 LLM 모델

    ✔️ 오픈소스가 LLM 생태계에 미치는 영향

    ✔️ 한국어 AI 경쟁력 강화를 위한 ‘Open Ko-LLM 리더보드'

최근 인공지능(AI) 시장의 판도는 다양한 오픈소스의 등장으로 변화하고 있습니다. 메타가 LLaMa를 누구나 접근할 수 있는 오픈소스로 개방한 이래로 오픈AI나 구글과 같은 빅테크를 제외한 후발주자들은 모델을 오픈소스로 내놓는 추세가 되었는데요. 이번 인사이트 블로그에서는 LLM의 문턱을 낮춤으로써 생성형 AI 시대의 새로운 바람으로 떠오른 ‘오픈소스 LLM’은 무엇이며, 또 이것이 LLM 생태계에 불러올 파급력은 어떠할지 다루어 봅니다.




오픈소스란?

오픈소스 소프트웨어(SW)는 인공지능, 빅데이터, 클라우드, IoT 등 4차 산업혁명의 핵심 기술로 여겨지는 많은 부분에서 활용되고 있습니다. 오픈소스의 등장 배경을 이해하기 위해서는, 컴퓨터 소프트웨어의 초기 역사를 살펴봐야 합니다. 컴퓨터가 처음 개발되었을 때, 소프트웨어는 주로 학계나 연구 기관에서 개발되었고, 그 코드는 자유롭게 공유되었습니다. 그러나 점차 상업적인 소프트웨어 시장이 성장하면서 많은 회사들이 자신들의 코드를 비공개로 만들기 시작했고, 이런 흐름에 반발해 1980년대 후반 리처드 스톨먼(Richard Stallman)이 소프트웨어의 본래 생산 유통 방식인 정보 공유 방식을 복원하고자 '자유 소프트웨어 운동'을 시작하였습니다. 이후 관련 재단과 협회가 설립되면서 오픈소스라는 용어가 처음 등장합니다.


💡 오픈소스란?
: 소스 코드가 공개되어 있어 누구나 자유롭게 이를 검토, 수정, 배포할 수 있는 소프트웨어를 가리키는 용어이다. 각 오픈소스의 라이센스에 따라 사용자가 해당 소프트웨어를 어떻게 사용하거나 수정하거나 배포할 수 있는지 결정된다.

오픈소스는 특히 언어 모델의 개발 수요가 폭증함에 따라 비용 절감의 이유로 LLM 시장에서 큰 주목을 받고 있는데요. 대량의 데이터 학습이나 자체 시스템 개발 없이도 오픈소스를 파인튜닝(미세조정)하면 새로운 모델을 빠르게 개발할 수 있기 때문입니다.


💡 오픈소스의 장점

  • 빠르고 유연한 개발 환경: 여러 사람들이 동일한 프로젝트에 기여하면서 아이디어를 교환하고 문제를 해결할 수 있는 환경을 제공한다.

  • 확장성: 사용자의 필요에 따라 코드를 수정하거나 확장하여 프로젝트의 목적에 맞게 커스터마이징 할 수 있다.

  • 비용 절감: 자체 시스템 개발 없이도 무료로 사용할 수 있는 오픈소스 소프트웨어를 활용하면 비용과 시간을 절감할 수 있다.


오픈소스 LLM의 등장

새로운 키워드로 급부상하고 있는 오픈소스 LLM은 올 2월, 메타가 LLaMa를 학계에서 접근할 수 있게 허용한 이래로 이를 활용한 ‘sLLM’(small Large Language Model; 소형언어모델)이 다수 등장하며 주목받기 시작했습니다. sLLM은 보통 매개변수가 60억(6B)~100억(10B)개로 기존 LLM에 비해 훨씬 작음에도 불구하고 성능은 못지 않기 때문에 저비용·고효율의 강점을 가집니다. 오픈AI의 ‘GPT-3’는 매개변수가 1750억개, 구글의 ‘LaMDA’(람다)가 1370억개, ‘PaLM’(팜)이 5400억개에 달하는 것과 비교하면 효율성을 더욱 체감할 수 있습니다.

마크 저커버그 메타플랫폼 최고경영자(CEO)는 지난 7월, LLaMa 2를 오픈소스로 내놓으며 “생태계가 개방될수록 더 많은 진전이 가능할 것이라고 믿는다”고 언급하기도 했는데요. 이처럼 오픈소스를 공개하는 기업은 AI 기술에 대한 문턱을 낮춰 많은 조직과 개발자들이 자유롭게 경쟁하고 혁신을 만들어갈 수 있는 생태계를 조성하는 것이 곧 업계가 발전하는 방향이라는 관점을 가지고 있습니다.


주요 오픈소스 LLM 모델

그렇다면 많이 활용되고 있는 주요 오픈소스 LLM 모델에는 어떤 것들이 있을까요?

  1. LLaMA

인간 피드백을 통한 강화학습(RLHF)과 보상 모델링을 통해 양방향 대화에 최적화한 LLaMA 2-Chat

인간 피드백을 통한 강화학습(RLHF)과 보상 모델링을 통해 양방향 대화에 최적화한 LLaMA 2-Chat
(출처: Llama 2: Open Foundation and Fine-Tuned Chat Models)

대표적으로는 오픈소스 LLM의 대중화를 이끈 메타의 ‘LLaMA’가 있습니다. 상업적 활용까지 가능한 버전인 LLaMA 2는 2023년 7월 18일에 출시되었는데요. 강화학습(RLHF)과 보상 모델링을 활용하여 텍스트 생성, 요약, 질문 및 답변 등 더욱 유용하고 안전한 결과물을 생성할 수 있습니다. LLaMA 2는 7B, 13B, 70B의 세 가지 크기로 나뉩니다. 모델에 사용된 매개변수(parameter)의 크기에 따라 모델별 생성 완료 시간에 차이가 있을 수 있지만, 이전 모델에 비해 정확도의 향상과 유해한 텍스트 생성을 방지하는 측면이 강화되었으며 Azure 및 Windows 등의 여러 플랫폼에서도 파인튜닝이 가능하게 확장되어 다양한 프로젝트에 활용되고 있습니다.


2. MPT-7B

MPT-7B(Mosaic Pretrained Transformers)는 MosaicML에서 발표한 오픈소스 LLM으로 1조개의 토큰으로 학습된 트랜스포머입니다. 상업적으로도 이용이 가능하며, 기본 모델과 더불어 이를 기반으로 구축할 수 있는 세 가지의 파생 모델(MPT-7B-Instruct, MPT-7B-Chat, MPT-7B-StoryWriter-65k+)이 있습니다. MPT-7B는 메타의 70억 파라미터 수를 가진 모델인 LLaMA-7B와 동등한 품질을 갖고 있다고 알려져있습니다.


3. Alpaca

Alpaca는 스탠포드 대학에서 공개한 학문적 연구 목적의 오픈소스 모델입니다. 스탠포드의 학생들은 ChatGPT, Claude, Bing Chat 등 다양한 모델이 등장하는 가운데에서도 여전히 잘못된 정보나 유해한 텍스트가 생성될 수 있는 점들을 지적했는데요. 이러한 문제를 해결하고 기술적으로 진보하기 위해서는 학계의 참여가 중요하다고 여겨 모델에 대한 연구를 이어가고자 Alpaca를 발표했습니다. Alpaca는 메타의 LLaMA-7B를 바탕으로 두고, 언어 모델이 사용자의 명령어에 적합하게 대답할 수 있도록 하는 Instruction-following 데이터를 활용해 파인튜닝 되었습니다.

4. Vicuna

vicuna llm

출처: LMSYS.org

LMSYS Org에서 만든 Vicuna 역시 LLaMA를 기반으로 만들어졌습니다. ShareGPT.com에서 수집한 7만 개의 사용자 공유 대화로 구성된 학습 세트를 파인튜닝에 활용했다고 하는데요. 비쿠나 팀에 따르면 GPT-4를 심사위원으로 사용한 예비 평가에서 Vicuna-13B는 ChatGPT와 Google Bard 품질의 90% 이상을 달성한 것으로 나타났으며, 온라인 데모와 함께 제공하는 코드는 비상업적 목적일 경우 누구나 사용 가능합니다.


5. Falcon

Falcon은 아랍에미리트(UAE)의 기술혁신연구소(Technology Innovation Institute)에서 공개한 모델로, Falcon 40B는 연구자와 상용 사용자가 모두 활용할 수 있는 대표적인 오픈소스 모델 중 하나입니다. 180B 모델은 1800억개의 파라미터를 사용, 3조 5000억개의 토큰으로 학습하여 뛰어난 성능을 가지고 있습니다.

오픈소스가 LLM 생태계에 미치는 영향

지금까지 살펴본 것처럼 오픈소스는 AI 기술에 대한 접근성과 투명성을 높일 수 있다는 순기능으로 인해 다양한 부분에서 활용되고 있습니다. 물론 오남용에 대한 우려와 같은 단점도 존재하기 마련입니다. 그럼에도 불구하고 LLM 생태계 발전에 긍정적인 영향을 미친다는 점, 그리고 빅테크 대비 상대적으로 자본이 크지 않은 조직도 효율적으로 연구하고 새로운 모델이나 서비스를 개발할 수 있게 도움을 줄 수 있다는 점이 바로 오픈소스 AI가 지속되게 하는 요인인 것이죠.

이러한 흐름에 힘입어 자연어처리 분야의 최대 오픈소스 플랫폼인 ‘허깅페이스’도 덩달아 주목받기 시작했습니다. 허깅페이스는 전세계의 다양한 기업과 연구 기관이 개발한 생성 AI 모델의 성능을 평가하여 경쟁할 수 있는 ‘오픈LLM 리더보드’를 운영하고 있는데요. 여기에는 500여 개의 오픈소스 생성 AI 모델이 추론, 상식 능력, 언어 이해 종합 능력, 환각현상(할루시네이션) 방지 등 네 가지 지표에 대한 평가를 바탕으로 순위가 매겨지고 있습니다. 이 리더보드는 상시 개방되고 있어 모델이 새롭게 제출될 때마다 평가를 반영하여 갱신된 리더보드를 확인할 수 있습니다.

hugging face

출처: Hugging Face

특히 국내 기업중에서는 지난 8월, AI 스타트업 업스테이지가 개발한 생성 AI 모델이 챗GPT의 기반인 GPT-3.5의 성능을 뛰어넘고 1위를 차지한 것이 알려지며 화제를 모았는데요. 업스테이지는 지난 7월, 허깅페이스를 통해 30B(300억) 매개변수 모델을 공개하여 평균 67점을 획득했고, 이는 같은 날 발표된 메타의 LLaMA 2 70B 모델을 추월하고 국내 LLM 최초 1위 달성이라는 쾌거를 올린 바가 있습니다. 이에 더 나아가 LLaMA 2 70B(700억) 매개변수를 기반으로 파인튜닝한 모델을 내놓으며 리더보드 평가 72.3점을 기록, 글로벌 1위 굳히기에 나선 것인데요.

허깅페이스 리더보드 기준으로 생성 AI 모델의 대명사 격인 GPT-3.5의 점수를 능가한 사례는 업스테이지가 최초로, 글로벌 경쟁력을 입증한 업스테이지의 LLM 모델 ‘SOLAR’(솔라)는 지난 9월, 생성 AI 활용 플랫폼 ‘Poe’에 메인 모델로 등극하기도 했습니다. 이는 챗GPT, 구글 팜, 메타 라마, 엔트로픽 클로드와 버금가는 성능을 인정받은 것으로, 오픈소스를 활용한다면 자본과 인력이 한정된 스타트업일지라도 글로벌 톱 레벨의 모델을 개발할 수 있다는 것을 증명한 대표적인 사례입니다.

국내 대표 AI 스타트업 업스테이지가 개발한 생성 AI 모델이 허깅페이스 오픈 LLM 리더보드 순위에서 챗GPT를 넘어 1위를 차지한 모습 (23.08)

한국어 AI 경쟁력 강화를 위한 ‘Open Ko-LLM 리더보드'

국내에서도 오픈소스 AI 생태계 확장을 위한 움직임이 커지고 있습니다. 허깅페이스 오픈LLM 리더보드에서 1위를 차지했던 업스테이지는 최근 한국지능정보사회진흥원(NIA)과 손잡고 한국어 LLM의 성능을 평가하고 비교할 수 있는 ‘Open Ko-LLM 리더보드’를 개설했는데요. Open Ko-LLM 리더보드는 허깅페이스가 운영하는 오픈LLM 리더보드의 기존 데이터를 단순히 번역한 것이 아니라 한국어의 특성과 문화를 반영한 고품질의 데이터를 자체 구축해 한국어 특화 리더보드로서의 강점을 자랑합니다. 또한, 상식 생성 능력을 평가하는 기준을 추가해 다각도에서 모델을 평가할 수 있도록 하였는데, 이를 활용하면 국내에서 가장 대표적인 할루시네이션 예시로 알려진 ‘세종대왕의 맥북던짐 사건’ 등의 사례도 크게 방지할 수 있어 한국어와 역사에 더 적합한 모델을 비교, 평가할 수 있다는 점에서 의미가 깊습니다.

Open Ko-LLM 리더보드는 개설 2주만에 등록된 모델이 100개를 넘어서며 가파른 확장세를 보이고 있습니다. 특히 ‘Ko-Alpaca’, 고려대학교 ‘KULLM(구름)’, Polyglot-Ko’ 등 기존에 유명한 한국어 오픈소스 모델들이 총집결하는 양상으로 업계에서 한국어 특화 LLM 성능 평가의 바로미터로 자리 잡고 있는데요. 이는 대한민국 LLM의 독립을 위해 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들에게 수익 공유의 상생 모델을 제시하는 ‘1T 클럽’과 더불어 국내 오픈소스 LLM 진영의 구심점 역할을 할 것으로 기대를 모으고 있습니다.

이처럼 빠르게 진화하고 있는 생성 AI 시장 속에서 오픈소스는 또 어떠한 파장과 진보를 일으키게 될까요? 글로벌 시장뿐만 아니라 국내에서도 오픈소스 진영이 불러올 혁신을 기대해 봅니다.

 
 
 
  • 업스테이지는 2020년 10월에 설립된 국내 대표 AI 스타트업이다. 업스테이지는 허깅페이스 리더보드에서 오픈LLM 역사상 최초로 챗GPT의 벤치마크 점수를 뛰어넘는 성능으로 1위를 차지하며 거대 언어 모델(LLM) 업계에서 두각을 나타내고 있다. 이런 기술력을 기반으로 데이터 보안을 극대화하고 할루시네이션을 해결한 신뢰할 수 있는 프라이빗 LLM의 표준을 제시, 최첨단 기술을 기업이 편리하게 사용할 수 있도록 돕는다. 또한, 업스테이지의 Chat AI ‘AskUp’은 140만 명이 넘는 사용자를 보유, 국내 최대 AI 서비스로 자리매김했다. 또다른 업스테이지 대표 솔루션인 Document AI Pack은 세계 최고 권위 OCR 대회를 석권한 AI OCR 기술을 활용, 효율성과 정확성을 높여 문서 자동화 실현한다. 최소한의 데이터로 사전 학습된 모델을 통해 문서 처리를 최적화함으로써 수작업 방식에 비해 비용과 시간을 획기적으로 최소화한다. 마지막으로, 교육프로그램 ‘에듀스테이지’를 통해 AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성하는 교육 콘텐츠 사업에도 적극 나서고 있다.

    업스테이지는 구글, 애플, 아마존, 엔비디아, 메타, 네이버 등 글로벌 빅테크 출신의 멤버를 중심으로 NeurlPS를 비롯, ICLR, CVPR, ECCV, WWW, CHI, WSDM, DMLR 등 세계적 권위의 AI 학회에 다수의 우수 논문을 발표하고, 온라인 AI 경진대회 캐글(Kaggle)에서 국내 기업 중 유일하게 두 자릿수 금메달을 획득하는 등 독보적인 AI 기술 리더십을 다지고 있다. 업스테이지 김성훈 대표는 홍콩과학기술대학교 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished Paper Award 4회 수상, International Conference on Software Maintenance에서 10년 동안 가장 영향력 있는 논문상을 받은 세계적인 AI 구루로 꼽히며, 총 700만뷰 이상을 기록한 ‘모두를 위한 딥러닝’ 강사로도 널리 알려져 있다. 또한, 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO가 참여하고 있다.

    업스테이지 홈페이지 바로가기

 
Previous
Previous

문서에서 지식으로, 우리 회사만의 데이터를 만드는 디지털 자산화

Next
Next

업스테이지 가을 야유회 - Be together, 13e Upstage