メインコンテンツへスキップ
AI用語集に戻る
AI用語

オフポリシーデータ

Off-Policy Data

解説

現在学習中のAI自身が生成したものではなく、過去のバージョンのAIや別のシステム、あるいは人間が過去に作成したデータのこと。本研究ではこれを「ヒント」として再利用します。

さらに詳しく解説

オフポリシーデータとは

オフポリシーデータは、強化学習において現在最適化しようとしている方策とは異なる方策で収集されたデータです。

オンポリシーとの違い

オンポリシー学習は方策更新のたびに新データが必要ですが、オフポリシー学習は過去のデータを再利用でき、データ効率が高い点が特徴です。

代表的なアルゴリズム

Q学習やDQNが代表です。近年は大規模言語モデルの学習にも応用されています。

ビジネスでの意義

AIエージェントの効率的な学習や、過去の業務ログを活用した自動化システム構築に重要な役割を果たしています。

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する