解説
さらに詳しく解説
学習データとは
学習データ(Training Data)は、機械学習モデルの訓練に使用されるデータセットです。データの量・質・多様性がモデルの性能を大きく左右します。
学習データの種類
| 種類 | 説明 | 用途 |
|---|---|---|
| 訓練データ | モデル学習用 | パラメータ調整 |
| 検証データ | ハイパーパラメータ調整用 | 過学習検出 |
| テストデータ | 最終評価用 | 性能測定 |
LLMの学習データ
LLM学習データの構成:
├── Webテキスト
│ └── CommonCrawl、C4
├── 書籍
│ └── Books3、Gutenberg
├── Wikipedia
│ └── 多言語Wikipedia
├── コード
│ └── GitHub、Stack Overflow
├── 学術論文
│ └── arXiv、PubMed
└── 対話データ
└── Reddit、フォーラムデータ量の目安
データ品質の重要性
データ品質の影響:
├── ノイズ
│ └── 誤った情報の学習
├── バイアス
│ └── 偏った出力
├── 重複
│ └── 過学習のリスク
├── 有害コンテンツ
│ └── 不適切な出力
└── 古い情報
└── 知識のカットオフデータ前処理
| 処理 | 目的 |
|---|---|
| 重複除去 | 過学習防止 |
| 品質フィルタ | ノイズ除去 |
| 有害コンテンツ除去 | 安全性確保 |
| 言語検出 | 適切な言語選別 |
| 正規化 | 形式の統一 |
ファインチューニング用データ
SFT用データ形式:
{
"instruction": "指示文",
"input": "入力(オプション)",
"output": "期待する出力"
}
RLHF用データ形式:
{
"prompt": "プロンプト",
"chosen": "良い回答",
"rejected": "悪い回答"
}著作権と法的課題
| 課題 | 対応策 |
|---|---|
| 著作権侵害 | 許諾データの使用 |
| 個人情報 | 匿名化処理 |
| オプトアウト | 除外リクエスト対応 |
| トレーニング同意 | 利用規約の整備 |
合成データ
合成データの活用:
├── LLMによる生成
│ └── 指示-応答ペアの生成
├── データ拡張
│ └── 既存データの変換
└── シミュレーション
└── 仮想環境でのデータ生成ベストプラクティス
- 多様性確保: 様々なソースから収集
- 品質管理: 定期的なレビュー
- バイアス監視: 偏りの検出・軽減
- 法的確認: 利用権限の確認
