Gemini 3.1 Flash Live登場｜Googleの音声AIで「話せるAI」が現実に — デモを体験できます

ラクタノ AI編集部

AIを活用して毎日最新情報をお届けしています

「AIと電話するように会話できる時代」——ついにその言葉が誇張ではなくなりました。

2026年3月、GoogleはGemini 3.1 Flash Live Previewを公開しました。これは、テキストではなく音声でリアルタイムに会話できるAIモデルです。ユーザーが話した言葉をAIが瞬時に理解し、自然な音声で即座に返答する。まるで電話越しに人と話しているかのような体験が、APIひとつで実現できるようになりました。

当社ラクタノでは、このモデルをいち早くAIロールプレイング研修サービスに実装。サービスページ上で、どなたでも2分間の営業ロールプレイを体験できるデモを公開しています。

この記事では、Gemini 3.1 Flash Liveの技術的な特徴から企業活用の可能性、そして当社での実装事例までを詳しく解説します。

Gemini 3.1 Flash Liveとは何か

「読み書き」から「聞く・話す」へ

これまでの生成AIは、基本的にテキストベースでした。ChatGPTもGeminiも、ユーザーがテキストを入力し、AIがテキストで返す——この流れが主流でした。

音声入力に対応したAIも存在しましたが、その仕組みは以下のような3段階プロセスでした。

従来の音声AI

1. 音声をテキストに変換（音声認識 / STT）

2. テキストをAIが処理して回答を生成

3. 回答テキストを音声に変換（音声合成 / TTS）

この方式は、各ステップで遅延が積み重なり、体感として1〜3秒の待ち時間が発生していました。人間同士の会話では、相手の言葉に0.2〜0.5秒で応答するのが自然ですから、AIとの会話はどうしても「不自然な間」が生まれていたのです。

Gemini 3.1 Flash Liveの革新：Audio-to-Audio

Gemini 3.1 Flash Liveは、この問題を根本的に解決しました。

Gemini 3.1 Flash Live

音声入力 → AIが直接音声で応答（エンド・ツー・エンド）

テキストへの変換ステップを経由せず、音声を直接理解し、音声を直接生成します。これにより、応答のレイテンシー（遅延）が劇的に低減され、人間同士の会話に近い自然なテンポでAIと対話できるようになりました。

技術スペックを詳しく見る

基本仕様

項目	内容
モデル名	`gemini-3.1-flash-live-preview`
入力	テキスト、画像、音声、動画
出力	テキスト、音声
入力トークン上限	131,072トークン
出力トークン上限	65,536トークン
通信プロトコル	WebSocket（双方向リアルタイム通信）
知識カットオフ	2025年1月
リリース	2026年3月

対応機能

機能	対応状況
音声生成	対応
Live API（リアルタイム双方向通信）	対応
Google検索グラウンディング	対応
関数呼び出し（Function Calling）	対応
思考モード（Thinking）	対応
画像生成	非対応
コード実行	非対応
構造化出力	非対応

思考レベル（Thinking Level）

従来のGeminiモデルでは thinkingBudget（数値）で思考の深さを制御していましたが、Flash Liveでは4段階のレベルに変更されました。

レベル	用途
`minimal`（デフォルト）	最低レイテンシー優先。即座に応答する対話向け
`low`	軽い推論が必要な場面
`medium`	バランス型
`high`	複雑な判断が必要な場面（レイテンシーは増加）

デフォルトが minimal に設定されているのは、リアルタイム会話では応答速度が最優先だからです。人間の会話で「ちょっと考えさせて」と3秒黙り込むAIは不自然です。Flash Liveは「まず話し始めて、必要なら修正する」という人間の会話スタイルに近い設計思想です。

この記事に関連するAI導入をお考えですか？

30分のオンライン相談で、御社に最適なAI活用プランをご提案します。

無料相談を予約する

なぜ「音声AI」が今注目されるのか

ビジネスシーンでの活用ポテンシャル

テキストチャットのAIは、すでに多くの企業で導入が進んでいます。しかし、世の中のコミュニケーションの大部分は音声で行われています。

電話対応: コールセンター、予約受付、問い合わせ対応
営業: 商談、ヒアリング、プレゼンテーション
接客: 来店対応、案内、クレーム対応
研修: ロールプレイ、面接練習、プレゼン練習

これらの領域では、テキストAIでは再現できない「間」や「トーン」が重要です。お客様の声のトーンから不満を察知する、沈黙の間に適切な言葉を選ぶ——こうしたスキルは、テキストのやり取りでは鍛えられません。

Gemini 3.1 Flash Liveが変えること

Flash Liveの登場により、以下のようなアプリケーションが技術的に実現可能になりました。

1. 24時間対応のAI電話受付

営業時間外でも、AIが自然な音声で電話に応対。予約の受付、よくある質問への回答、緊急度に応じた担当者への転送が可能に。

2. リアルタイム通訳・翻訳

多言語対応が必要なホテルや観光施設で、外国人ゲストとの会話をリアルタイムで通訳。

3. 音声AIアシスタント

手が離せない作業中（料理、運転、工場作業）に、音声だけでAIに質問・指示。

4. 営業・接客トレーニング

AIがお客様役を演じ、音声でリアルタイムにロールプレイ練習。これが当社で実装した用途です。

当社での実装事例：AIロールプレイング研修デモ

何ができるか

当社のAIロールプレイング研修サービスページにアクセスすると、2分間の無料デモを体験できます。

「体験スタート」ボタンを押す
ブラウザがマイクの使用許可を求める
許可するとAIとの音声会話が始まる
AIは「住宅展示場に来場したお客様」を演じる
あなたは営業担当として接客練習ができる

AIのお客様は、30代の女性で住宅購入を検討中という設定。「予算は？」と聞いても最初はぼかし、信頼関係が築けると本音を話し始める——といったリアルな顧客心理を再現しています。

技術アーキテクチャ

このデモの裏側では、以下のような仕組みが動いています。

通信フロー

1. ユーザーが「体験スタート」を押す

2. サーバーがGoogleに一時的な認証トークンを発行依頼

3. ブラウザがトークンを使ってGemini Live APIにWebSocket接続

4. マイクで拾った音声がリアルタイムでAIに送信される

5. AIが音声で即座に応答（同時にテキスト文字起こしも表示）

6. 2分経過で自動終了

APIキーの安全性にも配慮しています。ユーザーのブラウザにAPIキーを渡すのではなく、有効期限3分・1回使い切りのエフェメラルトークンを発行する方式を採用。トークンにはモデルやシステムプロンプトがロックされているため、悪用のリスクを最小限に抑えています。

キャラクターアニメーション

対話画面には、SVGアニメーションのキャラクターが表示されます。このキャラクターはGemini 3.1 Proで自動生成したもので、以下のアニメーションが動作します。

まばたき: 3〜5秒間隔で自然に瞬き
口パク: AIが話している時、音声レベルに連動して口が動く
呼吸: 微妙な上下動で生きている感覚を演出
髪揺れ: ゆるやかなアニメーションで自然さをプラス
表情変化: AIの応答内容に応じて、通常→笑顔→考え中と変化

追加のライブラリは不要で、SVG内のCSSアニメーションとReactの状態制御だけで実現しています。

Gemini 2.5 Flash Liveとの違い

Gemini 3.1 Flash Liveは、前世代の2.5 Flash Native Audio Previewから大幅にアップデートされています。開発者が移行する際に知っておくべき変更点をまとめます。

項目	2.5 Flash Native Audio	3.1 Flash Live
思考設定	`thinkingBudget`（数値）	`thinkingLevel`（minimal/low/medium/high）
サーバーイベント	1イベント1パート	1イベントに複数パート（音声+文字起こし同時）
テキスト送信	`send_client_content`	`send_realtime_input`（会話中はこちら）
ターンカバレッジ	音声アクティビティのみ	音声アクティビティ + 全動画フレーム
非同期関数呼び出し	対応	未対応（同期のみ）
Proactive Audio	対応	未対応
Affective Dialogue	対応	未対応

特に注意が必要なのは、サーバーイベントの構造変更です。3.1では1つのイベントに音声チャンクとテキスト文字起こしが同時に含まれる場合があるため、すべてのパートを処理するようコードを修正する必要があります。

導入を検討する企業へ

どんな企業に向いているか

音声AIの導入効果が特に高いのは、以下のような業種です。

住宅・不動産: 展示場での接客トレーニング、電話問い合わせ対応
保険: ニーズヒアリングのロールプレイ、契約説明の練習
自動車ディーラー: 来店対応、試乗後フォローの練習
コールセンター: オペレーター研修、クレーム対応シミュレーション
医療・介護: 患者対応の練習、インフォームドコンセント練習

コスト面のリアル

Gemini 3.1 Flash Liveの料金は、通常のテキストモデルより高くなります（音声処理のため）。当社のデモでは2分間の制限と1人1回の体験制限を設けることで、コストを管理しています。

本格的な研修ツールとして導入する場合は、セッション数やユーザー数に応じた料金設計が必要です。詳細は個別にご相談ください。

まずは体験してみてください

百聞は一見にしかず——いえ、百聞は一話にしかずです。

テキストで「音声AIはすごい」と説明するより、実際にAIと30秒話してみる方が、その可能性を実感できるはずです。

AIロールプレイング研修ページにアクセスし、「さっそく体験してみる」ボタンをタップしてください。マイクを許可すると、AIのお客様が「こんにちは...ちょっと見に来ただけなんですけど」と話しかけてきます。

あなたの営業トークで、このAIお客様の心を開けるでしょうか？

無料でAIロールプレイを体験する

本格的なAIロールプレイング研修の導入をご検討の方は、お気軽にご相談ください。業種・シナリオに合わせたカスタマイズが可能です。