大規模言語モデル(LLM)とは
- 膨大なテキストデータから学習した言語処理AI
- 特徴:
- 大量のパラメータ(数十億〜数兆)
- 自己回帰的な文章生成能力
- 多様なタスクへの適応性(few-shot learning)
- 代表例:GPT-4、Claude、Gemini、Llama 2など
Transformerアーキテクチャ
- 2017年にGoogleが発表した「Attention is All You Need」論文で提案
- 特徴:
- Self-Attentionメカニズム:文脈の長距離依存関係を捉える
- 並列処理が可能:学習の高速化
- エンコーダー・デコーダー構造
- 現代のLLMの基盤技術
LLMの学習プロセス
1. 事前学習(Pre-training)
- インターネット上の膨大なテキストデータを使用
- 自己教師あり学習:次の単語を予測するタスク
- 言語の統計的パターンと知識を獲得
2. ファインチューニング(Fine-tuning)
- 特定のタスクや領域向けに調整
- 人間のフィードバックによる強化学習(RLHF)
- 安全性、有用性、誠実さの向上
トークン化と生成プロセス
トークン化(Tokenization)
- テキストを小さな単位(トークン)に分割
- 単語、部分単語、文字などの単位
- 例:「こんにちは」→「こん」「にち」「は」
- トークン数の制限がコンテキストウィンドウを決定
生成プロセス
- 入力(プロンプト)を受け取り、トークン化
- 次のトークンの確率分布を計算
- サンプリング方法(温度、top-p、top-kなど)で次のトークンを選択
- 選択したトークンを出力に追加し、次のトークン予測の入力とする
- 停止条件(最大長、特定のトークン)まで繰り返し
LLMの能力と限界
能力
- 自然な文章生成と対話
- 多様な知識の保持と活用
- コンテキスト理解と一貫性のある応答
- 多言語対応
限界
- 幻覚(Hallucination):事実と異なる情報の生成
- 最新情報の欠如:学習データの時点までの知識
- 推論能力の制約:複雑な数学的・論理的推論の限界
- バイアスの存在:学習データに含まれる偏見の反映
法務分野でのLLM活用
- 文書生成:契約書ドラフト、法的文書の作成支援
- 情報抽出:契約書から重要条項の抽出
- 質問応答:法的質問への回答支援
- 要約:判例や長文法律文書の要約
次回予告:プロンプトエンジニアリング入門
- 効果的なプロンプトの書き方
- コンテキスト設定の重要性
- 一貫性のある指示の出し方