メインコンテンツへスキップ
AI用語集に戻る
AI用語

応答開始速度

TTFT

解説

TTFT(応答開始速度)とは、AIに指示を送ってから最初の回答が出力されるまでの待ち時間のことです。生成AIの「体感的な速さ」を左右する重要な指標で、数値が小さいほど即座に反応します。2026年現在は、音声対話や窓口業務など、リアルタイムなやり取りが求められる現場での導入基準として特に重視されています。

さらに詳しく解説

TTFT(Time to First Token/応答開始速度)は、AIに質問してから「最初の1文字(トークン)が返ってくるまでの時間」を表す指標です。AIサービスのユーザー体験を左右する重要なパフォーマンス指標で、特にチャット型AIや音声対話で重視されます。

なぜTTFTが重要か

  • ユーザーは「待たされる」と感じやすい
  • 何秒も無反応だと不安や離脱の原因
  • 全文生成より「反応の速さ」が体感品質に直結
  • 特に対話型UIで決定的な指標

関連する3つの速度指標

指標意味
TTFT最初のトークンまでの時間
TPS(Tokens per Second)1秒あたりの生成トークン数
TTLT(Time to Last Token)全文生成完了までの時間

UX目線では TTFT、コスト目線では TPS、業務応答時間目線では TTLT が重要です。

一般的な目安

体感TTFT
即時応答0.5秒未満
自然1秒以内
待たされる感あり2〜3秒
不快5秒以上

音声対話では特に厳しく、人間の自然会話に近づけるには 0.3〜0.5 秒以下が望ましいとされます。

TTFTに影響する要因

1. モデルの大きさ

  • 大規模モデル → 計算が重く遅延が大きい
  • 小規模・蒸留モデル → 高速

2. インフラ

  • GPUの性能・台数
  • ネットワーク遅延
  • 処理キューの混雑

3. プロンプト長

  • 入力トークンが長いほど初回処理に時間がかかる(プロンプト処理時間)
  • 1Mトークン入力は数秒〜数十秒の処理が必要

4. ストリーミング有無

  • ストリーミング配信:生成しながら順次返却
  • 非ストリーミング:完成してから一括返却(TTFTは大きい)

TTFT改善の手法

手法概要
ストリーミング応答トークンごとに順次返却
軽量モデル併用即応用に小型モデル、深い思考用に大型モデル
プロンプト圧縮入力を短くする
プロンプトキャッシング共通部分の事前計算
推論最適化KVキャッシュ、量子化、speculative decoding
エッジ推論サーバー往復を減らす
地理分散ユーザーに近いリージョンで処理

業界別の重要性

音声AI・コールセンター

  • 0.5秒以下の遅延が望ましい
  • 不自然な間が会話品質を損なう

チャットボット

  • 1秒以内の最初の文字表示が望ましい
  • ストリーミング表示で体感速度を向上

コーディング支援

  • 補完候補は瞬時に表示
  • 思考が遅れると入力リズムを壊す

検索・RAG

  • 検索フェーズ+生成フェーズの合計
  • 「考え中…」の表示などUI工夫

ストリーミング応答の効果

非ストリーミング:

[ユーザー入力] →(5秒待ち)→ [全文表示]

ストリーミング:

[ユーザー入力] →(0.5秒)→ [文字が出始める] → [生成完了]

体感的なTTFTが大幅に短縮され、待ち時間のストレスが軽減されます。

主要LLM APIのTTFT傾向

(一般的な傾向、実測値はモデル・利用条件で変動)

  • GPTシリーズ:高速、ストリーミング対応
  • **Claudeシリーズ**:標準的に高速、ストリーミング対応
  • **Geminiシリーズ**:高速、長コンテキストでも比較的安定
  • オープンソース+自社GPU:構成次第で大きく変動

留意点

  1. TTFTだけでは判断不可:精度・コストとのバランス
  2. 計測の標準化:環境によって値が変わる
  3. 大量同時アクセス時:混雑で遅延が増す
  4. 長文プロンプト:プロンプト処理時間に注意
  5. エラー時の遅延:タイムアウト処理の設計

ビジネス適用での意思決定

  • リアルタイム性が決定的な業務(音声、対話)→ 軽量モデル+ストリーミング
  • 精度重視で遅延許容 → 大規模モデル
  • ハイブリッド:先に軽量モデル応答、後で深い分析

TTFTは「AIの応答が始まる速さ」であり、ユーザー体験を左右する最重要指標の一つとして、AIサービス設計の中核に位置付けられます。

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する