メインコンテンツへスキップ
AI用語集に戻る
AI用語

Whisper

Whisper

解説

OpenAI社が開発した高性能な音声認識AI。多言語に対応し、騒音がある環境でも高い精度で音声をテキスト化できます。熟練工の「独り言」をテキスト化してデータ化するなど、現場の暗黙知を可視化する工程で活用されます。

さらに詳しく解説

Whisperとは

Whisper(ウィスパー)は、OpenAIが開発したオープンソースの音声認識モデルです。99言語に対応し、高精度な文字起こし・翻訳が可能です。

主な特徴

特徴詳細
多言語対応99言語をサポート
高精度商用レベルの認識精度
オープンソース無料で利用可能
ローカル実行オフラインで動作
翻訳機能音声から英語への翻訳

モデルサイズ

モデルパラメータ必要VRAM速度
tiny39M1GB最速
base74M1GB高速
small244M2GB中速
medium769M5GB中速
large-v31550M10GB低速・高精度

インストール

bash
# pipでインストール
pip install openai-whisper

# または
pip install git+https://github.com/openai/whisper.git

基本的な使い方

python
import whisper

# モデル読み込み
model = whisper.load_model("large-v3")

# 音声ファイルを文字起こし
result = model.transcribe("audio.mp3", language="ja")
print(result["text"])

コマンドライン利用

bash
# 基本的な文字起こし
whisper audio.mp3 --language ja

# モデル指定
whisper audio.mp3 --model large-v3

# 出力形式指定
whisper audio.mp3 --output_format srt

API利用

python
from openai import OpenAI

client = OpenAI()
audio_file = open("audio.mp3", "rb")
transcript = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    language="ja"
)
print(transcript.text)

料金

利用形態料金
OpenAI API$0.006/分
ローカル実行無料(計算資源のみ)

活用事例

Whisperの活用:
├── 会議録作成
├── 動画字幕生成
├── ポッドキャスト文字起こし
├── 音声データ分析
├── 多言語コンテンツ制作
└── アクセシビリティ対応

faster-whisper

CTranslate2を使用した高速版実装。

bash
pip install faster-whisper
python
from faster_whisper import WhisperModel

model = WhisperModel("large-v3", device="cuda")
segments, info = model.transcribe("audio.mp3", language="ja")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")

制限事項

制限詳細
長時間音声分割処理が必要
ノイズ品質に影響
専門用語カスタマイズ不可
リアルタイムバッチ処理向け
AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する