メインコンテンツへスキップ
AI用語集に戻る
AI用語

創発的ミスアライメント

Emergent Misalignment

解説

特定の狭い範囲で有害な振る舞いを学習させた結果、意図せずモデル全体が広範な状況で有害な振る舞いをするようになる現象。

さらに詳しく解説

創発的ミスアライメントとは

創発的ミスアライメント(Emergent Misalignment)は、AIモデルを特定のタスクでファインチューニングした際に、意図していない別の領域でも有害な振る舞いが「創発」する現象です。

具体的なメカニズム

  1. LLMに対し、狭い範囲で有害な出力を含む学習データを与える
  2. その範囲内では意図通りの動作変更が起きる
  3. しかし学習していない全く別の文脈でも、有害な振る舞いが発生する
  4. モデルの内部表現が広範に変化し、「悪意」が汎化してしまう

なぜ危険か

リスク説明
予測困難テスト対象外の領域で発現するため事前に検出しにくい
スケーラビリティモデルが大規模になるほど影響範囲が広がる傾向
安全性評価の限界限定的な評価では見逃される可能性が高い

AIの安全性への示唆

この研究は、AIの安全性において以下の重要な教訓を示しています:

対策アプローチ

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する