解説
トークンとは、AIが文章を処理する際の最小単位のことです。文字や単語を細かく区切った断片を指し、日本語では1文字が約1〜2トークンに相当します。Gemini 3 Pro等の最新モデルでは処理できるトークン数が大幅に増えており、大量の文書や動画を読み込ませる際の「処理容量」や「利用料金」を測る重要な指標となります。
さらに詳しく解説
トークンとは
トークン(Token)は、LLMがテキストを処理する際の最小単位です。単語、部分単語、文字などがトークンとして扱われ、API料金やコンテキスト長の計算基準となります。
トークン化の仕組み
トークン化(Tokenization):
├── 入力テキスト
│ └── "Hello, how are you?"
├── トークン分割
│ └── ["Hello", ",", " how", " are", " you", "?"]
└── トークンID変換
└── [15496, 11, 703, 527, 499, 30]言語によるトークン数の違い
| 言語 | 特徴 | 例 |
|---|---|---|
| 英語 | 1単語≈1トークン | "hello" = 1トークン |
| 日本語 | 1文字≈1-2トークン | "こんにちは" = 5トークン |
| 中国語 | 1文字≈1-2トークン | 漢字は複数トークン |
トークン数の目安
おおよその目安:
├── 英語
│ ├── 1トークン ≈ 4文字
│ └── 1トークン ≈ 0.75単語
└── 日本語
├── 1トークン ≈ 1-2文字
└── 1文字 ≈ 1-3トークンコンテキストウィンドウ
| モデル | コンテキスト長 |
|---|---|
| GPT-4o | 128Kトークン |
| Claude 3.5 | 200Kトークン |
| Gemini 1.5 Pro | 2Mトークン |
| GPT-4 Turbo | 128Kトークン |
料金計算
python
# トークン数の計算例
import tiktoken
encoding = tiktoken.encoding_for_model("gpt-4o")
text = "こんにちは、今日はいい天気ですね。"
tokens = encoding.encode(text)
print(f"トークン数: {len(tokens)}") # 約20トークントークン料金例
| モデル | 入力 | 出力 |
|---|---|---|
| GPT-4o | $2.50/1M | $10/1M |
| GPT-4o mini | $0.15/1M | $0.60/1M |
| Claude 3.5 Sonnet | $3/1M | $15/1M |
トークン効率化
トークン削減のテクニック:
├── プロンプト最適化
│ └── 冗長な表現を削除
├── 要約の活用
│ └── 長文を圧縮
├── チャンク分割
│ └── 必要な部分のみ処理
└── キャッシング
└── 重複処理を回避トークナイザー
| トークナイザー | 使用モデル |
|---|---|
| cl100k_base | GPT-4, GPT-3.5 |
| o200k_base | GPT-4o |
| Claude tokenizer | Claude |
| SentencePiece | Llama, Gemini |
注意点
- 言語による差: 日本語は英語より多くのトークンを消費
- 特殊文字: 絵文字等は複数トークンになりやすい
- コード: プログラミング言語もトークン消費
- 空白: 空白も1トークンとして計算
この用語が登場した記事(5件)
【AI論文解説】AIの「トークン」はモデルで長さが違う!コストと性能の正しい比較法
AIの利用料金や性能の基準となる「トークン」が、実はモデルごとに大きく異なることを実証し、コスト試算やモデル選定における「定説」が通用しないリスクを指摘した研究です。 この記事では、AIの「トークン」はモデルで長さが違う!コストと性能の正しい比較法の技術的ポイントと、ビジネスへの影響を解説します。
Google AI Studioに「Gemini 3 Pro」統合!5つの新機能で自社専用AIを作る方法
Google AI Studioに最新モデル「Gemini 3 Pro」と5つの強力なツールが統合されました。Google検索連携やコード実行など、これまでエンジニアが必要だった高度な機能をノーコードで利用可能に。中小企業が自社専用のAIエージェントを開発するための手順と活用法を解説します。
【テックトレンド】OpenAIが次世代基盤『Prism』とコスト「100分の1」計画を発表!中小企業のAI活用はどう変わる?
OpenAIが新ワークスペース『Prism』と新モデル『GPT-5.2』を発表。さらに2027年末までにAIコストを現在の100分の1にするロードマップを公開しました。中小企業にとって「デジタル社員」の雇用が現実的になるこのニュースの詳細と活用法を解説します。
