メインコンテンツへスキップ
AI用語集に戻る
AI用語

敵対的設定

Adversarial Setting

解説

データの発生源がランダムではなく、アルゴリズムを騙そうとするかのように予測不能に変化する厳しい環境設定のこと。

Adversarial Setting(敵対的設定)の図解

さらに詳しく解説

敵対的設定(Adversarial Setting)は、AIモデルを意図的にだます/弱点を突く入力が想定される環境のことです。攻撃者の存在を前提に、モデルの頑健性(ロバスト性)を評価したり防御策を設計したりするときの枠組みとして使われます。

通常の設定との違い

観点通常の設定敵対的設定
入力の前提自然に発生したデータ攻撃者が最適化した入力
評価指標正答率、損失攻撃成功率、最悪ケース性能
必要な対策一般的な汎化敵対的訓練・入力検査

代表的な攻撃の種類

  • 敵対的サンプル(Adversarial Examples):人には自然に見えるがモデルが誤分類する画像・テキスト
  • プロンプトインジェクションLLMに意図しない指示を埋め込む攻撃
  • データポイズニング学習データに毒を混ぜて挙動を歪める
  • モデル抽出APIへの大量問い合わせで内部知識を盗む

防御の方向性

  1. 敵対的訓練:攻撃サンプルも学習データに混ぜて頑健化
  2. 入出力フィルタ:怪しい入力や危険な出力を弾く層を挟む
  3. **ガードレール/レート制限**:API側で攻撃の試行を抑制
  4. モニタリング:本番運用での挙動異常を継続監視

敵対的設定を意識した評価は、医療・金融・自動運転など失敗が許されない領域で特に重視されます。

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する