解説
さらに詳しく解説
TTFT(Time to First Token/応答開始速度)は、AIに質問してから「最初の1文字(トークン)が返ってくるまでの時間」を表す指標です。AIサービスのユーザー体験を左右する重要なパフォーマンス指標で、特にチャット型AIや音声対話で重視されます。
なぜTTFTが重要か
- ユーザーは「待たされる」と感じやすい
- 何秒も無反応だと不安や離脱の原因
- 全文生成より「反応の速さ」が体感品質に直結
- 特に対話型UIで決定的な指標
関連する3つの速度指標
| 指標 | 意味 |
|---|---|
| TTFT | 最初のトークンまでの時間 |
| TPS(Tokens per Second) | 1秒あたりの生成トークン数 |
| TTLT(Time to Last Token) | 全文生成完了までの時間 |
UX目線では TTFT、コスト目線では TPS、業務応答時間目線では TTLT が重要です。
一般的な目安
| 体感 | TTFT |
|---|---|
| 即時応答 | 0.5秒未満 |
| 自然 | 1秒以内 |
| 待たされる感あり | 2〜3秒 |
| 不快 | 5秒以上 |
音声対話では特に厳しく、人間の自然会話に近づけるには 0.3〜0.5 秒以下が望ましいとされます。
TTFTに影響する要因
1. モデルの大きさ
- 大規模モデル → 計算が重く遅延が大きい
- 小規模・蒸留モデル → 高速
2. インフラ
- GPUの性能・台数
- ネットワーク遅延
- 処理キューの混雑
3. プロンプト長
- 入力トークンが長いほど初回処理に時間がかかる(プロンプト処理時間)
- 1Mトークン入力は数秒〜数十秒の処理が必要
4. ストリーミング有無
- ストリーミング配信:生成しながら順次返却
- 非ストリーミング:完成してから一括返却(TTFTは大きい)
TTFT改善の手法
| 手法 | 概要 |
|---|---|
| ストリーミング応答 | トークンごとに順次返却 |
| 軽量モデル併用 | 即応用に小型モデル、深い思考用に大型モデル |
| プロンプト圧縮 | 入力を短くする |
| プロンプトキャッシング | 共通部分の事前計算 |
| 推論最適化 | KVキャッシュ、量子化、speculative decoding |
| エッジ推論 | サーバー往復を減らす |
| 地理分散 | ユーザーに近いリージョンで処理 |
業界別の重要性
音声AI・コールセンター
- 0.5秒以下の遅延が望ましい
- 不自然な間が会話品質を損なう
チャットボット
- 1秒以内の最初の文字表示が望ましい
- ストリーミング表示で体感速度を向上
コーディング支援
- 補完候補は瞬時に表示
- 思考が遅れると入力リズムを壊す
検索・RAG
- 検索フェーズ+生成フェーズの合計
- 「考え中…」の表示などUI工夫
ストリーミング応答の効果
非ストリーミング:
[ユーザー入力] →(5秒待ち)→ [全文表示]ストリーミング:
[ユーザー入力] →(0.5秒)→ [文字が出始める] → [生成完了]体感的なTTFTが大幅に短縮され、待ち時間のストレスが軽減されます。
主要LLM APIのTTFT傾向
(一般的な傾向、実測値はモデル・利用条件で変動)
- GPTシリーズ:高速、ストリーミング対応
- **Claudeシリーズ**:標準的に高速、ストリーミング対応
- **Geminiシリーズ**:高速、長コンテキストでも比較的安定
- オープンソース+自社GPU:構成次第で大きく変動
留意点
- TTFTだけでは判断不可:精度・コストとのバランス
- 計測の標準化:環境によって値が変わる
- 大量同時アクセス時:混雑で遅延が増す
- 長文プロンプト:プロンプト処理時間に注意
- エラー時の遅延:タイムアウト処理の設計
ビジネス適用での意思決定
- リアルタイム性が決定的な業務(音声、対話)→ 軽量モデル+ストリーミング
- 精度重視で遅延許容 → 大規模モデル
- ハイブリッド:先に軽量モデル応答、後で深い分析
TTFTは「AIの応答が始まる速さ」であり、ユーザー体験を左右する最重要指標の一つとして、AIサービス設計の中核に位置付けられます。
