メインコンテンツへスキップ
AI用語集に戻る
AI用語

音声認識

Speech Recognition

解説

人間の声をコンピュータが解析し、テキストデータに変換する技術。AIの進化により、専門用語や方言を含む現場の会話も高精度でデジタル化できるようになりました。動画から技術情報を抽出する際の入り口となる重要な技術です。

さらに詳しく解説

音声認識とは

音声認識(Speech Recognition)は、人間の音声をコンピュータがテキストに変換する技術です。AI・深層学習の発展により、高精度な音声認識が実現しています。

技術の仕組み

音声認識のプロセス:
1. 音声入力
   └── マイクで音声を取得
   ↓
2. 前処理
   └── ノイズ除去、正規化
   ↓
3. 特徴抽出
   └── 音響特徴量(MFCC等)
   ↓
4. 音響モデル
   └── 音素・単語の認識
   ↓
5. 言語モデル
   └── 文脈に基づく補正
   ↓
6. テキスト出力

主要な音声認識サービス

サービス提供元特徴
WhisperOpenAI高精度、多言語
Google Speech-to-TextGoogleリアルタイム対応
Azure SpeechMicrosoft企業向け機能充実
Amazon TranscribeAWSAWS統合
AmiVoiceアドバンスト・メディア日本語特化

Whisperの特徴

Whisperのポイント:
├── 多言語対応(99言語)
├── オープンソース
├── ローカル実行可能
├── 高いノイズ耐性
└── 句読点・フォーマット自動

活用事例

分野用途
ビジネス会議の文字起こし
医療カルテ音声入力
コールセンター通話記録・分析
メディア字幕生成
アクセシビリティ聴覚障害者支援

精度に影響する要因

要因影響
音質ノイズ、残響
話者アクセント、話速
語彙専門用語、固有名詞
文脈同音異義語の判別

精度向上のポイント

精度向上のアプローチ:
├── ハードウェア
│   └── 高品質マイク使用
├── 環境整備
│   └── 静かな環境確保
├── カスタマイズ
│   └── 専門用語辞書登録
└── 後処理
    └── 誤認識の修正ルール

API利用例

python
# Whisper APIの例
import openai

audio_file = open("audio.mp3", "rb")
transcript = openai.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="ja"
)
print(transcript.text)

料金目安

サービス料金
Whisper API$0.006/分
Google STT$0.006/15秒
Azure Speech$1/音声時間
AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する