メインコンテンツへスキップ
AI用語集に戻る
AI用語

アクティベーション・プローブ

Activation Probe

解説

AIモデルが回答を生成する際、内部で発生する信号(ニューロンの活性化)を直接読み取り、その入力が危険かどうかを判断する軽量な分類器のこと。

Activation Probe(アクティベーション・プローブ)の図解

さらに詳しく解説

アクティベーション・プローブとは

アクティベーション・プローブ(Activation Probe)は、ニューラルネットワークの内部状態(アクティベーション)を分析するための手法です。AIモデルが何を「理解」し、どのように情報を処理しているかを調べるために使用されます。

仕組み

ニューラルネットワークの中間層のアクティベーション(各ニューロンの出力値)を取得し、その上に小さな分類器(プローブ)を学習させます。プローブが高い精度で特定の情報を分類できれば、モデルの内部にその情報が表現されていると推定できます。

活用例

言語モデルの解析

LLMの内部表現を調べ、文法知識、事実知識、推論能力などがどの層で表現されているかを分析します。

安全性の研究

モデルが有害なコンテンツを生成しようとしている兆候を内部状態から検出し、ジェイルブレイク対策に活用する研究が進んでいます。

関連分野

メカニスティック・インタープリタビリティ(機械的解釈可能性)と呼ばれる研究分野で、AIの「ブラックボックス」を解明する手法の一つです。

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する