
さらに詳しく解説
埋め込みモデル(Embedding Model)は、テキストや画像など意味のあるデータを「ベクトル(数値の配列)」に変換するAIモデルです。意味の似たものは近いベクトルに、異なるものは遠いベクトルに配置されるため、検索・分類・類似度計算の基盤として広く使われています。
仕組み
テキスト「猫がかわいい」 → 埋め込みモデル → [0.21, -0.45, 0.83, ..., 0.12] (例: 1536次元のベクトル)
テキスト「子猫が可愛らしい」 → 埋め込みモデル → [0.19, -0.42, 0.81, ..., 0.15] (近いベクトル)
テキスト「株価が下がった」 → 埋め込みモデル → [-0.55, 0.31, -0.10, ..., 0.78] (遠いベクトル)ベクトル同士の類似度(コサイン類似度など)を計算することで、意味的に近いものを高速に検索できます。
主な用途
| 用途 | 概要 |
|---|---|
| 意味検索 | クエリと文書の意味的近さで検索 |
| RAG | LLMに渡す関連文書をベクトル検索で抽出 |
| 分類・クラスタリング | ベクトル空間で似たデータをまとめる |
| 推薦システム | 類似アイテム・類似ユーザーの検索 |
| 異常検知 | 通常パターンから離れたベクトルを検出 |
代表的な埋め込みモデル
| モデル | 提供 | 特徴 |
|---|---|---|
| text-embedding-3 系 | OpenAI | 多言語対応、高精度 |
| Gemini Embedding | Gemini系統 | |
| Cohere Embed | Cohere | 検索特化 |
| BGE / E5 系 | オープンソース | ローカル運用可能 |
実務での選び方
- 次元数:高いほど表現力は上がるがストレージとコストも増える
- 言語対応:日本語性能を必ず実データで評価
- コスト:1Mトークンあたりの料金
- ローカル運用可否:機密データはオープンソースモデルを自社環境で
ベクトルデータベースとの組み合わせ
生成した埋め込みはベクトルDB(Pinecone、Weaviate、pgvector等)に保存し、類似検索に利用するのが一般的な構成です。
