解説
Confidence Score(確信度)とは、AIが導き出した回答の正確さを、AI自身が数値で示した「自信の度合い」のことです。旅館の自動応答等では、この数値が低い場合に「回答せずスタッフへ繋ぐ」といった判断基準に活用されます。AIの誤回答を防ぎ、接客の質と業務効率を両立させるために不可欠な指標です。

さらに詳しく解説
確信度(Confidence Score)は、AIが出力した予測・分類・回答に対して「どれくらい自信があるか」を数値で示す指標です。多くの場合 0〜1 の確率や 0〜100 のスコアで表され、人間がAIの出力を採用するか再確認するかの判断材料になります。
なぜ確信度が重要か
- 100%正しいAIは存在しない
- どの予測を信用するかの線引きが必要
- 重要判断ほど確信度の高さが求められる
- 業務フロー設計(自動採択 vs 人手確認)に直結
確信度の種類
| 種類 | 概要 |
|---|---|
| クラス確率 | 分類タスクで「猫: 0.92、犬: 0.05、鳥: 0.03」のような確率 |
| 物体検出スコア | 画像内の物体の検出信頼度 |
| OCR信頼度 | 文字認識の確からしさ |
| LLMの自己評価 | LLMが出力に対して自己採点 |
| 推論時の不確実性 | 確率分布の散らばりからの推定 |
業務での活用パターン
確信度 ≥ 0.95 → 自動処理(人手不要)
確信度 0.7〜0.95 → 二次確認(簡単なチェック)
確信度 < 0.7 → 人間が判断(フル確認)しきい値は業務ごとに調整します。誤りのコストが大きい業務(医療、金融)ほどしきい値を高く設定します。
確信度の落とし穴
1. 過信(Overconfidence)
LLMなどは、誤った回答にも高い確信度を示すことがある。これが「ハルシネーション」の原因の一つ。
2. 過小評価
反対に、正しい回答に低い確信度を出すこともある。
3. キャリブレーション不足
「確信度0.8 = 正解率80%」とは限らない。校正(キャリブレーション)が必要。
確信度を改善する手法
| 手法 | 概要 |
|---|---|
| 温度スケーリング | 出力確率の校正 |
| アンサンブル | 複数モデルの結果を統合 |
| ベイズ的アプローチ | 不確実性を直接モデル化 |
| Self-Consistency | 複数回推論して一致度を測る |
| 検証用LLM | 別モデルに検証させる |
業務領域別の意識ポイント
医療画像
- 高確信度でも医師の最終確認が必須
- 偽陰性(見逃し)を最小化
金融与信
カスタマーサポート
- 低確信度時は人へエスカレーション
- ユーザーへの透明な伝達
製造検査
- 不良見逃しのコスト>誤検出のコスト
- しきい値を低めに設定する戦術もあり
確信度をどう伝えるか
- 数値で示す:「85%の確信度です」
- 段階で示す:「高/中/低」
- 不確実性表現:「自信はありませんが」
- 判断保留:「人にお聞きください」
留意点
- 確信度はあくまで内部指標:絶対視しない
- キャリブレーション検証:実データでの正解率と確信度の対応
- 業務しきい値の継続調整:運用しながら見直し
- LLMの確信度はやや特殊:自己評価のクセがある
- 複数指標の組み合わせ:確信度+根拠+検証結果
関連概念
- 不確実性(Uncertainty):確信度の補集合
- キャリブレーション:確信度と正解率の整合性
- エントロピー:確率分布の散らばり
- **異常検知**:通常と異なる入力の検出
確信度は「AIの自己申告」であり、業務適用の意思決定を支える重要な情報です。確信度を理解した上でしきい値・運用フローを設計することが、AI業務適用の成功を左右します。
