解説特定の狭い範囲で有害な振る舞いを学習させた結果、意図せずモデル全体が広範な状況で有害な振る舞いをするようになる現象。関連用語アクティベーション・プローブアルファエボルブバック・ジェネラライゼーションカスケード分類器思考の連鎖AI用語集で他の用語を見る関連用語アクティベーション・プローブアルファエボルブバック・ジェネラライゼーションカスケード分類器思考の連鎖