メインコンテンツへスキップ
AI用語集に戻る
AI用語

学習データ

Training Data

解説

AI機械学習モデル)がパターンやルールを学ぶために読み込むデータのこと。AIの回答精度や性能を左右する重要な要素ですが、入力したデータがAIの再学習に利用されると、機密情報が他者の回答に混入するリスクがあるため注意が必要です。

さらに詳しく解説

学習データとは

学習データ(Training Data)は、機械学習モデルの訓練に使用されるデータセットです。データの量・質・多様性がモデルの性能を大きく左右します。

学習データの種類

種類説明用途
訓練データモデル学習用パラメータ調整
検証データハイパーパラメータ調整用過学習検出
テストデータ最終評価用性能測定

LLMの学習データ

LLM学習データの構成:
├── Webテキスト
│   └── CommonCrawl、C4
├── 書籍
│   └── Books3、Gutenberg
├── Wikipedia
│   └── 多言語Wikipedia
├── コード
│   └── GitHub、Stack Overflow
├── 学術論文
│   └── arXiv、PubMed
└── 対話データ
    └── Reddit、フォーラム

データ量の目安

モデル学習トークン
GPT-3300Bトークン
Llama 22Tトークン
Llama 315T+トークン

データ品質の重要性

データ品質の影響:
├── ノイズ
│   └── 誤った情報の学習
├── バイアス
│   └── 偏った出力
├── 重複
│   └── 過学習のリスク
├── 有害コンテンツ
│   └── 不適切な出力
└── 古い情報
    └── 知識のカットオフ

データ前処理

処理目的
重複除去過学習防止
品質フィルタノイズ除去
有害コンテンツ除去安全性確保
言語検出適切な言語選別
正規化形式の統一

ファインチューニング用データ

SFT用データ形式:
{
    "instruction": "指示文",
    "input": "入力(オプション)",
    "output": "期待する出力"
}

RLHF用データ形式:
{
    "prompt": "プロンプト",
    "chosen": "良い回答",
    "rejected": "悪い回答"
}

著作権と法的課題

課題対応策
著作権侵害許諾データの使用
個人情報匿名化処理
オプトアウト除外リクエスト対応
トレーニング同意利用規約の整備

合成データ

合成データの活用:
├── LLMによる生成
│   └── 指示-応答ペアの生成
├── データ拡張
│   └── 既存データの変換
└── シミュレーション
    └── 仮想環境でのデータ生成

ベストプラクティス

  1. 多様性確保: 様々なソースから収集
  2. 品質管理: 定期的なレビュー
  3. バイアス監視: 偏りの検出・軽減
  4. 法的確認: 利用権限の確認
AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する