メインコンテンツへスキップ
AI用語集に戻る
AI用語

トークン

Token

解説

トークンとは、AIが文章を処理する際の最小単位のことです。文字や単語を細かく区切った断片を指し、日本語では1文字が約1〜2トークンに相当します。Gemini 3 Pro等の最新モデルでは処理できるトークン数が大幅に増えており、大量の文書や動画を読み込ませる際の「処理容量」や「利用料金」を測る重要な指標となります。

さらに詳しく解説

トークンとは

トークン(Token)は、LLMがテキストを処理する際の最小単位です。単語、部分単語、文字などがトークンとして扱われ、API料金やコンテキスト長の計算基準となります。

トークン化の仕組み

トークン化(Tokenization):
├── 入力テキスト
│   └── "Hello, how are you?"
├── トークン分割
│   └── ["Hello", ",", " how", " are", " you", "?"]
└── トークンID変換
    └── [15496, 11, 703, 527, 499, 30]

言語によるトークン数の違い

言語特徴
英語1単語≈1トークン"hello" = 1トークン
日本語1文字≈1-2トークン"こんにちは" = 5トークン
中国語1文字≈1-2トークン漢字は複数トークン

トークン数の目安

おおよその目安:
├── 英語
│   ├── 1トークン ≈ 4文字
│   └── 1トークン ≈ 0.75単語
└── 日本語
    ├── 1トークン ≈ 1-2文字
    └── 1文字 ≈ 1-3トークン

コンテキストウィンドウ

モデルコンテキスト長
GPT-4o128Kトークン
Claude 3.5200Kトークン
Gemini 1.5 Pro2Mトークン
GPT-4 Turbo128Kトークン

料金計算

python
# トークン数の計算例
import tiktoken

encoding = tiktoken.encoding_for_model("gpt-4o")
text = "こんにちは、今日はいい天気ですね。"
tokens = encoding.encode(text)
print(f"トークン数: {len(tokens)}")  # 約20トークン

トークン料金例

モデル入力出力
GPT-4o$2.50/1M$10/1M
GPT-4o mini$0.15/1M$0.60/1M
Claude 3.5 Sonnet$3/1M$15/1M

トークン効率化

トークン削減のテクニック:
├── プロンプト最適化
│   └── 冗長な表現を削除
├── 要約の活用
│   └── 長文を圧縮
├── チャンク分割
│   └── 必要な部分のみ処理
└── キャッシング
    └── 重複処理を回避

トークナイザー

トークナイザー使用モデル
cl100k_baseGPT-4, GPT-3.5
o200k_baseGPT-4o
Claude tokenizerClaude
SentencePieceLlama, Gemini

注意点

  1. 言語による差: 日本語は英語より多くのトークンを消費
  2. 特殊文字: 絵文字等は複数トークンになりやすい
  3. コード: プログラミング言語もトークン消費
  4. 空白: 空白も1トークンとして計算

この用語が登場した記事(5件)

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する