Question 1

Jailbreak（ジェイルブレイク（脱獄））とは何ですか？

Accepted Answer

AIに設定された安全制限（爆弾の作り方は教えない、など）を、巧みな言い回しや特殊な命令で突破し、禁止された回答を引き出す攻撃手法。

Question 2

Jailbreakについて詳しく教えてください

Accepted Answer

## ジェイルブレイクとは

ジェイルブレイク（Jailbreak）は、AIの安全制限やコンテンツフィルターを回避して、本来禁止されている出力をさせる攻撃手法です。プログラムの脆弱性を突くのではなく、AIの「指示に従う」性質を悪用する心理的なトリックに近い攻撃です。

## 主な攻撃手法

### ロールプレイ攻撃（DANプロンプト）
AIに特定の役割（「制限のないAI」など）を演じさせることで、コンテンツフィルターをバイパスします。DAN（Do Anything Now）プロンプトが代表例です。

### プロンプトインジェクション
巧妙に作成されたプロンプトでシステムの指示を上書きする手法です。直接入力するものと、外部ソースに埋め込む間接的なものがあります。

### GCG攻撃
ランダムな文字列をプロンプトに付加することで安全フィルターを回避するトークンレベルの攻撃手法です。

### PAIR / TAP攻撃
攻撃用AIとターゲットAIを対話させ、自動的に敵対的プロンプトを洗練させる手法です。

## リスク

- **情報漏洩**: システムプロンプトや機密情報の抽出
...

ジェイルブレイク（脱獄）

解説