거대 언어 모델(LLM)이란?

거대 언어 모델(LLM)이란?

(참조 자료: What are large language models (LLMs)?)

거대 언어 모델(LLM)은 딥러닝 기술과 방대한 데이터 세트를 활용해 새로운 콘텐츠를 이해하고, 요약하며, 생성하고, 예측하는 인공지능 알고리즘의 한 종류입니다. 생성형 AI라는 용어도 LLM과 밀접하게 연결되어 있는데, 실제로 LLM은 텍스트 기반 콘텐츠 생성을 돕기 위해 특별히 설계된 생성형 AI의 한 유형입니다.

수천 년에 걸쳐 인간은 의사소통을 위해 구어를 발전시켜 왔습니다. 언어는 모든 인간 및 기술적 커뮤니케이션의 핵심에 있으며, 아이디어와 개념을 전달하는 데 필요한 단어, 의미, 문법을 제공합니다. AI 세계에서 언어 모델은 이와 유사한 역할을 하며, 새로운 개념을 소통하고 생성하는 기반을 제공합니다.

최초의 AI 언어 모델은 AI의 초기 시절로 거슬러 올라갑니다. MIT에서 1966년에 등장한 Eliza 언어 모델은 AI 언어 모델의 가장 초기 사례 중 하나입니다. 모든 언어 모델은 먼저 데이터 세트로 학습을 한 뒤, 다양한 기법을 활용해 관계를 추론하고, 궁극적으로 학습된 데이터를 바탕으로 새로운 콘텐츠를 생성합니다. 언어 모델은 사용자가 자연어로 쿼리를 입력해 결과를 생성하는 자연어 처리(NLP) 애플리케이션에서 흔히 사용됩니다.

LLM은 AI에서 언어 모델 개념이 진화한 형태로, 학습과 추론에 사용되는 데이터의 규모를 획기적으로 확장했습니다. 그 결과, AI 모델의 능력이 비약적으로 향상되었습니다. 학습에 필요한 데이터 세트의 크기에 대해 보편적으로 받아들여지는 기준은 없지만, LLM은 일반적으로 최소 10억 개 이상의 파라미터를 보유하고 있습니다. 파라미터란, 모델이 학습한 변수로, 이를 통해 새로운 콘텐츠를 추론할 수 있습니다.

현대의 대형 언어 모델(LLM)은 2017년에 등장했으며, 트랜스포머(Transformer)로 불리는 신경망 모델을 사용합니다. 많은 수의 파라미터와 트랜스포머 모델 덕분에, LLM은 다양한 분야에서 신속하고 정확하게 텍스트를 이해하고 생성할 수 있어 AI 기술의 활용 범위를 크게 넓혔습니다.

일부 LLM은 ’파운데이션 모델(Foundation Model)’이라고도 불리는데, 이 용어는 2021년 스탠퍼드 인간중심 인공지능 연구소(Stanford Institute for Human-Centered Artificial Intelligence)에서 처음 제안되었습니다. 파운데이션 모델은 규모와 영향력이 매우 커서, 이후의 최적화나 특정 용도에 맞춘 추가 개발의 토대가 되는 모델을 의미합니다.

LLM의 예시

다음은 인터넷 조사에 따라 가나다순으로 나열한 시중 상위 10개 LLM 리스트입니다:

  • 트랜스포머로부터 양방향 인코더 표현(Bidirectional Encoder Representations from Transformers), 일반적으로 BERT라고 불립니다
  • Claude.
  • Cohere.
  • 지식 통합을 통한 강화된 표현(Enhanced Representation through Knowledge Integration), 즉 Ernie라고 불립니다.
  • Falcon 40B.
  • Galactica.
  • 생성형 사전 훈련 트랜스포머 3(Generative Pre-trained Transformer 3), 일반적으로 GPT-3라고 부릅니다.
  • GPT-3.5.
  • GPT-4.
  • 대화형 애플리케이션을 위한 언어 모델(Language Model for Dialogue Applications), 즉 Lamda라고 불립니다.
자세한 내용은 위에 언급된 LLM과 다른 주요 사례를 살펴보는 이 글을 참조하세요.

비즈니스에서 LLM이 중요해지는 이유는 무엇인가요?

AI가 계속 발전함에 따라 비즈니스 환경에서의 AI의 역할은 점점 더 커지고 있습니다. 이는 거대 언어 모델(LLM)과 머신러닝 도구의 활용을 통해 잘 드러납니다. 머신러닝 모델을 설계하고 적용하는 과정에서는 단순함과 일관성을 주요 목표로 삼아야 한다는 것이 연구의 조언입니다. 해결해야 할 문제를 명확히 파악하는 것뿐만 아니라, 과거 데이터를 이해하고 정확성을 확보하는 것도 필수적입니다.

머신러닝과 관련된 이점은 흔히 효율성, 효과성, 경험, 그리고 비즈니스 진화의 네 가지 범주로 나뉩니다. 이러한 이점들이 점차 부각됨에 따라, 기업들은 이 기술에 지속적으로 투자하고 있습니다.

거대 언어 모델은 어떻게 작동하나요?

거대 언어 모델(LLM)은 여러 구성 요소를 포함하는 복잡한 접근 방식을 사용합니다.

파운데이션 레이어에서 LLM은 일반적으로 페타바이트(petabyte) 규모의 방대한 데이터 집합(말뭉치)으로 학습됩니다. 이 학습은 여러 단계로 진행되며, 보통 **비지도 학습(unsupervised learning)**으로 시작합니다. 이 단계에서는 레이블이 지정되지 않은 비정형 데이터를 사용하여 모델을 훈련시킵니다. 레이블 없는 데이터의 장점은 훨씬 더 많은 데이터를 활용할 수 있다는 점입니다. 이 단계에서 모델은 단어와 개념 간의 관계를 파악하기 시작합니다.

다음 단계로 일부 LLM은 **자기 지도 학습(self-supervised learning)**을 통해 미세 조정(fine-tuning)을 수행합니다. 여기서는 일부 데이터에 레이블이 지정되어 모델이 다양한 개념을 더 정확하게 식별하도록 돕습니다.

이후 LLM은 트랜스포머(transformer) 신경망 구조를 통해 심층 학습을 진행합니다. 트랜스포머 아키텍처는 **자기 주의 메커니즘(self-attention mechanism)**을 사용해 단어와 개념 간의 연결 관계를 이해하고 인식합니다. 이 메커니즘은 토큰(token)이라는 단위에 가중치(weight)를 부여해 관계의 중요도를 평가합니다.

학습이 완료된 LLM은 실제 응용에 활용될 수 있는 기반을 갖추게 됩니다. 프롬프트(prompt)로 LLM을 질의하면, 모델 추론(model inference)을 통해 답변 생성, 새로운 텍스트 생성, 요약, 감성 분석 보고서 작성 등의 응답을 생성할 수 있습니다.

거대 언어 모델은 어떤 용도로 사용되나요?

LLM은 다음과 같은 다양한 NLP 작업에 폭넓게 적용할 수 있기 때문에 점점 더 인기를 얻고 있습니다:

  • 텍스트 생성: LLM이 학습한 주제에 대해 텍스트를 생성하는 능력은 주요 활용 사례 중 하나입니다.
  • 번역: 여러 언어로 학습된 LLM의 경우, 한 언어에서 다른 언어로 번역하는 기능이 일반적입니다.
  • 콘텐츠 요약: 여러 페이지나 블록의 텍스트를 요약하는 것은 LLM의 유용한 기능입니다.
  • 콘텐츠 재작성: 텍스트의 일부를 다시 작성하는 것도 가능한 기능입니다.
  • 분류 및 범주화: LLM은 콘텐츠를 분류하고 범주화할 수 있습니다.
  • 감성 분석: 대부분의 LLM은 감성 분석에 활용되어 사용자가 콘텐츠나 특정 응답의 의도를 더 잘 이해할 수 있도록 도와줍니다.
  • 대화형 AI 및 챗봇: LLM은 기존 AI 기술보다 훨씬 자연스러운 방식으로 사용자와 대화할 수 있는 기능을 제공합니다.

대화형 AI의 가장 일반적인 활용 사례 중 하나는 챗봇을 통한 것으로, 챗봇은 사용자가 질의응답 방식으로 상호작용할 수 있는 다양한 형태로 존재할 수 있습니다. 가장 널리 사용되는 LLM 기반 AI 챗봇은 OpenAI에서 개발한 ChatGPT입니다. 현재 ChatGPT는 GPT-3.5 모델을 기반으로 하고 있으며, 유료 구독자는 더 최신의 GPT-4 LLM을 사용할 수 있습니다.

거대 언어 모델의 장점은 무엇인가요?

LLM은 조직과 사용자에게 다양한 이점을 제공합니다:

  • 확장성과 적응성: LLM은 맞춤형 활용 사례의 기반이 될 수 있습니다. LLM 위에 추가 학습을 수행하면 조직의 특정 요구에 맞춘 세밀하게 조정된 모델을 만들 수 있습니다.
  • 유연성: 하나의 LLM은 여러 조직, 사용자, 애플리케이션에서 다양한 작업과 배포에 활용될 수 있습니다.
  • 성능: 최신 LLM은 일반적으로 높은 성능을 보이며, 빠르고 지연이 적은 응답을 생성할 수 있습니다.
  • 정확도: LLM의 파라미터 수와 학습 데이터의 양이 증가할수록 트랜스포머 모델은 더 높은 수준의 정확도를 제공합니다.
  • 학습 용이성: 많은 LLM은 라벨이 없는 데이터를 활용해 학습 속도를 높일 수 있습니다.
  • 효율성: LLM은 반복적인 작업을 자동화함으로써 직원들의 시간을 절약할 수 있습니다.

거대 언어 모델의 과제와 한계는 무엇인가요?

LLM을 사용하면 많은 이점이 있지만 몇 가지 문제점과 한계도 있습니다:

  • 개발 비용: LLM을 운영하려면 일반적으로 대량의 고가 GPU 하드웨어와 방대한 데이터 세트가 필요하므로 개발 비용이 매우 높습니다.
  • 운영 비용: 학습 및 개발이 끝난 후에도 LLM을 운영하는 데 드는 비용은 호스팅 조직에게 매우 클 수 있습니다. 자체 인프라를 운영할 경우 하드웨어, 스토리지, 네트워크, 업데이트 및 유지보수 등 다양한 요소에서 비용이 발생하며, 서비스형 모델을 사용할 경우에도 토큰 사용량에 따라 지속적으로 비용이 청구됩니다.
  • 편향(Bias): 라벨이 없는 데이터로 학습된 AI는 편향의 위험이 있습니다. 학습 데이터에 내재된 사회적 편향이 모델에 그대로 반영될 수 있으며, 이는 성별, 인종, 직업 등 다양한 영역에서 문제를 일으킬 수 있습니다.
  • 윤리적 문제: LLM은 데이터 프라이버시 문제를 일으킬 수 있고, 유해한 콘텐츠(예: 혐오 발언, 잘못된 정보 등)를 생성할 위험이 있습니다. 또한, 무기 개발이나 사회적 혼란을 조장하는 데 악용될 가능성도 있어 윤리적 논란이 많습니다.
  • 설명 가능성(Explainability): LLM이 특정 결과를 어떻게 생성했는지 설명하는 것은 사용자에게 쉽지 않으며, 모델의 의사결정 과정을 투명하게 이해하기 어렵습니다.
  • 환각(Hallucination): AI 환각은 LLM이 학습 데이터에 근거하지 않은 부정확한 답변을 생성하는 현상입니다. 이는 잘못된 정보나 비논리적인 결과로 이어질 수 있습니다.
  • 복잡성: 현대 LLM은 수십억 개의 파라미터를 갖고 있어 구조와 작동 방식이 매우 복잡합니다. 이로 인해 문제 발생 시 원인 분석과 해결이 어렵습니다.
  • 글리치 토큰(Glitch tokens): 2022년 이후 등장한 새로운 현상으로, 악의적으로 설계된 프롬프트가 LLM의 오작동을 유발하는 사례가 늘고 있습니다.
  • 보안 위험: LLM은 피싱 공격 등 사이버 공격을 정교하게 만드는 데 악용될 수 있어, 조직 내 보안 위협이 증가할 수 있습니다.

거대 언어 모델에는 어떤 유형이 있나요?

다양한 유형의 거대 언어 모델을 설명하는 용어는 계속 진화하고 있습니다. 일반적인 유형은 다음과 같습니다:

  • 제로샷 모델(Zero-shot model): 이 모델은 일반적인 데이터 코퍼스에 대해 학습된 대규모 범용 모델로, 추가적인 학습 없이도 다양한 일반적 활용 사례에 대해 상당히 정확한 결과를 제공합니다. GPT-3가 대표적인 제로샷 모델로 자주 언급됩니다.
  • 파인튜닝 또는 도메인 특화 모델(Fine-tuned or domain-specific models): GPT-3와 같은 제로샷 모델 위에 추가 학습을 수행하면, 특정 분야에 최적화된 파인튜닝 또는 도메인 특화 모델을 만들 수 있습니다. 예를 들어, OpenAI Codex는 프로그래밍에 특화된 GPT-3 기반 도메인 특화 LLM입니다.
  • 언어 표현 모델(Language representation model): 언어 표현 모델의 예로는 Google의 BERT가 있습니다. BERT는 딥러닝과 트랜스포머를 활용하여 자연어 처리(NLP)에 적합한 모델입니다.
  • 멀티모달 모델(Multimodal model): 원래 LLM은 텍스트에만 특화되어 있었으나, 멀티모달 접근 방식이 도입되면서 텍스트와 이미지를 모두 처리할 수 있게 되었습니다. GPT-4가 이러한 멀티모달 모델의 대표적인 예입니다.

거대 언어 모델의 미래

LLM의 미래는 여전히 이 기술을 개발하는 인간들에 의해 쓰이고 있지만, 언젠가는 LLM이 스스로를 만들어내는 시대가 올 수도 있습니다. 차세대 LLM은 Artificial General Intelligence(AGI)가 되거나 자각을 갖게 되지는 않겠지만, 지속적으로 발전하며 더욱 “똑똑해질” 것입니다.

LLM이 처리할 수 있는 비즈니스 애플리케이션의 범위도 계속 확장될 것입니다. 다양한 맥락에서 콘텐츠를 번역하는 능력이 더욱 향상되어, 기술적 전문성이 서로 다른 비즈니스 사용자들도 더 쉽게 활용할 수 있게 될 가능성이 높습니다.

LLM은 앞으로도 점점 더 방대한 데이터 세트로 학습될 것이며, 그 데이터는 정확성과 잠재적 편향을 개선하기 위해 더 잘 필터링될 것입니다. 이는 사실 확인 기능의 추가 등으로 부분적으로 이루어질 수 있습니다. 또한, 미래의 LLM은 현재 세대보다 결과가 어떻게 생성되었는지에 대한 출처 제공과 설명 능력이 더 뛰어날 것으로 예상됩니다.

각 산업이나 기능별로 개발된 도메인 특화 LLM을 통해 보다 정확한 정보를 제공하는 것도 대형 언어 모델의 미래 방향 중 하나입니다.

OpenAI가 ChatGPT 학습에 사용하는 인간 피드백 기반 강화학습과 같은 기법의 활용도 확대되어 LLM의 정확성을 높일 수 있습니다. 또한, 구글의 Realm(검색 증강 언어 모델, Retrieval-Augmented Language Model)과 같이 검색 증강 생성(retrieval-augmented generation) 개념에 기반한 LLM은 특정 데이터 코퍼스에 대해 학습 및 추론을 수행할 수 있어, 사용자가 특정 사이트 내 콘텐츠만 검색하는 것과 유사한 방식으로 활용될 수 있습니다.

LLM의 전체 크기와 학습 시간을 최적화하기 위한 연구도 계속되고 있습니다. 예를 들어, Meta의 Llama 모델이 개발 중이며, 2023년 7월에 출시된 Llama 2는 GPT-3의 절반 이하, GPT-4의 일부에 불과한 파라미터 수를 가지고 있지만, 개발진은 오히려 더 높은 정확도를 주장하고 있습니다.

반면, 대형 언어 모델의 활용은 조직 내에서 새로운 섀도우 IT(비공식 IT 사용) 사례를 촉진할 수 있습니다. CIO들은 데이터 프라이버시 문제와 기타 이슈를 방지하기 위해 사용 가이드라인을 마련하고 교육을 제공해야 할 것입니다. LLM은 공격자가 더욱 설득력 있고 현실적인 피싱 이메일이나 악성 커뮤니케이션을 작성할 수 있게 하여 새로운 사이버보안 위협도 초래할 수 있습니다.

그럼에도 불구하고, LLM의 미래는 기술이 인간의 생산성을 높이는 방향으로 계속 진화함에 따라 밝을 것으로 보입니다.

 

마케팅 자료 및 기타 상담 문의: parkmg85@hanmail.net