解説
AIに設定された安全制限(爆弾の作り方は教えない、など)を、巧みな言い回しや特殊な命令で突破し、禁止された回答を引き出す攻撃手法。
さらに詳しく解説
ジェイルブレイクとは
ジェイルブレイク(Jailbreak)は、AIの安全制限やコンテンツフィルターを回避して、本来禁止されている出力をさせる攻撃手法です。プログラムの脆弱性を突くのではなく、AIの「指示に従う」性質を悪用する心理的なトリックに近い攻撃です。
主な攻撃手法
ロールプレイ攻撃(DANプロンプト)
AIに特定の役割(「制限のないAI」など)を演じさせることで、コンテンツフィルターをバイパスします。DAN(Do Anything Now)プロンプトが代表例です。
[プロンプトインジェクション](/glossary/prompt-injection)
巧妙に作成されたプロンプトでシステムの指示を上書きする手法です。直接入力するものと、外部ソースに埋め込む間接的なものがあります。
GCG攻撃
ランダムな文字列をプロンプトに付加することで安全フィルターを回避するトークンレベルの攻撃手法です。
PAIR / TAP攻撃
攻撃用AIとターゲットAIを対話させ、自動的に敵対的プロンプトを洗練させる手法です。
リスク
- 情報漏洩: システムプロンプトや機密情報の抽出
- 有害コンテンツの生成: 倫理的に問題のある出力
- フィッシングへの悪用: パーソナライズされた詐欺メッセージの作成
- マルウェア生成: 悪意あるコードの作成支援
防御手法
Constitutional AI(憲法AI)
Anthropic社が開発した手法で、AIに倫理規範を与えて自己修正させます。95%以上のジェイルブレイク阻止率を達成しています。
SmoothLLM
入力を変換してから処理することで、攻撃成功率を大幅に低減するアルゴリズムです。
ジェイルブレイク検知モデル
入力がジェイルブレイクに該当するかを判定する専用のセーフガードモデルです。
