大規模言語モデル(LLM)とは

  • 膨大なテキストデータから学習した言語処理AI
  • 特徴:
    • 大量のパラメータ(数十億〜数兆)
    • 自己回帰的な文章生成能力
    • 多様なタスクへの適応性(few-shot learning)
  • 代表例:GPT-4、Claude、Gemini、Llama 2など

Transformerアーキテクチャ

  • 2017年にGoogleが発表した「Attention is All You Need」論文で提案
  • 特徴:
    • Self-Attentionメカニズム:文脈の長距離依存関係を捉える
    • 並列処理が可能:学習の高速化
    • エンコーダー・デコーダー構造
  • 現代のLLMの基盤技術

LLMの学習プロセス

1. 事前学習(Pre-training)

  • インターネット上の膨大なテキストデータを使用
  • 自己教師あり学習:次の単語を予測するタスク
  • 言語の統計的パターンと知識を獲得

2. ファインチューニング(Fine-tuning)

  • 特定のタスクや領域向けに調整
  • 人間のフィードバックによる強化学習(RLHF)
  • 安全性、有用性、誠実さの向上

トークン化と生成プロセス

トークン化(Tokenization)

  • テキストを小さな単位(トークン)に分割
  • 単語、部分単語、文字などの単位
  • 例:「こんにちは」→「こん」「にち」「は」
  • トークン数の制限がコンテキストウィンドウを決定

生成プロセス

  • 入力(プロンプト)を受け取り、トークン化
  • 次のトークンの確率分布を計算
  • サンプリング方法(温度、top-p、top-kなど)で次のトークンを選択
  • 選択したトークンを出力に追加し、次のトークン予測の入力とする
  • 停止条件(最大長、特定のトークン)まで繰り返し

LLMの能力と限界

能力

  • 自然な文章生成と対話
  • 多様な知識の保持と活用
  • コンテキスト理解と一貫性のある応答
  • 多言語対応

限界

  • 幻覚(Hallucination):事実と異なる情報の生成
  • 最新情報の欠如:学習データの時点までの知識
  • 推論能力の制約:複雑な数学的・論理的推論の限界
  • バイアスの存在:学習データに含まれる偏見の反映

法務分野でのLLM活用

  • 文書生成:契約書ドラフト、法的文書の作成支援
  • 情報抽出:契約書から重要条項の抽出
  • 質問応答:法的質問への回答支援
  • 要約:判例や長文法律文書の要約

次回予告:プロンプトエンジニアリング入門

  • 効果的なプロンプトの書き方
  • コンテキスト設定の重要性
  • 一貫性のある指示の出し方