解説

さらに詳しく解説
RAG(検索拡張生成)とは
RAG(Retrieval-Augmented Generation)は、外部知識ベースから関連情報を検索し、LLMの生成に活用する技術です。最新情報や専門知識を回答に反映できます。
基本アーキテクチャ
RAGの処理フロー:
1. ユーザーの質問
↓
2. クエリのベクトル化
↓
3. ベクトルDBから類似文書検索
↓
4. 関連文書を取得
↓
5. 質問 + 文書をLLMに入力
↓
6. 文書を参照した回答生成RAGのメリット
構成要素
| コンポーネント | 役割 | 例 |
|---|---|---|
| Embedding | テキストをベクトル化 | OpenAI Ada、Cohere |
| Vector DB | ベクトルを保存・検索 | Pinecone、Weaviate |
| Retriever | 類似文書を取得 | コサイン類似度検索 |
| LLM | 回答を生成 | GPT-4、Claude |
ベクトルデータベース
| DB | 特徴 |
|---|---|
| Pinecone | フルマネージド、高速 |
| Weaviate | オープンソース、多機能 |
| Chroma | 軽量、ローカル実行 |
| Qdrant | Rust製、高性能 |
| pgvector | PostgreSQL拡張 |
実装例(LangChain)
python
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
# ベクトルストア構築
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(
documents, embeddings
)
# RAGチェーン作成
qa = RetrievalQA.from_chain_type(
llm=OpenAI(),
retriever=vectorstore.as_retriever()
)
# 質問応答
result = qa.run("質問内容")RAGの改善テクニック
高度なRAG手法:
├── チャンク[最適化](/glossary/optimization)
│ └── 適切なサイズで文書分割
├── ハイブリッド検索
│ └── ベクトル+キーワード検索
├── リランキング
│ └── 検索結果の再順位付け
├── クエリ変換
│ └── 質問を検索に適した形に
└── 自己評価
└── 回答の妥当性チェック課題
この用語が登場した記事(6件)
【AI論文解説】AIの「トークン」はモデルで長さが違う!コストと性能の正しい比較法
AIの利用料金や性能の基準となる「トークン」が、実はモデルごとに大きく異なることを実証し、コスト試算やモデル選定における「定説」が通用しないリスクを指摘した研究です。 この記事では、AIの「トークン」はモデルで長さが違う!コストと性能の正しい比較法の技術的ポイントと、ビジネスへの影響を解説します。
【製造業AI活用】熟練工の技をデジタル化する「AI同僚化」の実践事例|従業員50名以下の生存戦略
従業員50名以下の中小製造業が、月額数千円のAIツールで熟練工の「暗黙知」を資産化する方法を解説。見積もり時間90%短縮や技能継承を実現した実在企業の事例をもとに、明日から試せる「AI同僚化」のステップを紹介します。
【無料商用可】Metaの「Llama 3」で自社専用AIを作る方法!中小企業こそ活用すべき理由とコスト解説
Meta社のオープンソースAI「Llama 3」シリーズを中小企業が活用するための完全ガイド。ChatGPT等の月額課金から脱却し、格安または無料で「自社専用AI」を構築する方法を解説します。最新モデルLlama 3.3の実力や、次世代Llama 4の展望、具体的な導入手順まで網羅。
