メインコンテンツへスキップ
AI用語集に戻る
AI用語

マルチモーダル

Multimodal

解説

テキストだけでなく、画像、音声、動画など複数の種類のデータを一度に処理できる機能です。例えば、現場で撮影した手書きの点検表(画像)を読み取り、その内容をテキストデータとして抽出・分析することが可能です。視覚情報と文字情報を組み合わせることで、より高度な現場判断を支援します。

さらに詳しく解説

マルチモーダルとは

マルチモーダル(Multimodal)は、テキスト・画像・音声・動画など複数の情報形式(モダリティ)を統合的に処理するAI技術です。人間のように複数の感覚を組み合わせて理解・生成ができます。

モダリティの種類

モダリティ入力出力
テキスト文章理解文章生成
画像画像認識画像生成
音声音声認識音声合成
動画動画理解動画生成
3D3Dモデル理解3D生成

主要なマルチモーダルモデル

モデル対応モダリティ特徴
GPT-4oテキスト・画像・音声リアルタイム音声対話
Gemini 2.0テキスト・画像・音声・動画ネイティブマルチモーダル
Claude 3.5テキスト・画像高精度な画像理解
Llama 3.2テキスト・画像オープンソース

技術アーキテクチャ

マルチモーダルモデルの構造:
├── モダリティエンコーダ
│   ├── ビジョンエンコーダ(画像→ベクトル)
│   ├── オーディオエンコーダ(音声→ベクトル)
│   └── テキストエンコーダ(テキスト→ベクトル)
├── 統合層(フュージョン)
│   └── 各モダリティの表現を統合
├── [推論](/glossary/inference)層
│   └── 統合表現から推論
└── デコーダ
    └── 目的のモダリティで出力

活用事例

ビジネス活用

  • 画像からの情報抽出: 領収書・請求書の自動読み取り
  • **動画要約**: 会議録画の自動要約
  • 商品説明生成: 商品画像からの説明文自動生成

医療・ヘルスケア

  • 医療画像診断: X線・MRI画像の解析支援
  • マルチモーダル問診: 音声と画像を組み合わせた診断

クリエイティブ

  • 画像からの物語生成: 画像を元にストーリー作成
  • 音声からの画像生成: 音の説明から画像を生成

[API](/glossary/api)利用例

python
# GPT-4oでの画像理解例
response = [openai](/glossary/openai).chat.completions.create(
    [model](/glossary/model)="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "この画像を説明してください"},
                {"type": "image_url", "image_url": {"url": image_url}}
            ]
        }
    ]
)

今後の展望

発展方向詳細
モダリティ拡大触覚・嗅覚センサー統合
リアルタイム化ストリーミング処理
軽量化エッジデバイス対応
生成品質より自然な出力生成

この用語が登場した記事(4件)

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する