メインコンテンツへスキップ
AI用語集に戻る
AI用語

量子化

Quantization

解説

AIモデルサイズを小さくするために、データの精度や桁数を減らして圧縮する技術。

さらに詳しく解説

量子化(Quantization)は、AIモデルパラメータや演算で使う数値の精度を下げて、モデルを軽く・速くする技術です。FP32(32ビット浮動小数点)をINT8(8ビット整数)やINT4(4ビット)に変換することで、推論速度向上・メモリ削減・電力削減を同時に実現します。

なぜ量子化するか

大規模なLLMは、そのままでは数十〜数百GBのメモリを必要とするため、コンシューマGPUやスマートフォンで動かすのが困難です。量子化によって以下の効果が得られます。

効果
メモリ削減70Bモデル:FP16で140GB → INT4で35GB
推論高速化整数演算は浮動小数点演算より高速
電力削減データ転送量と計算量の減少
エッジ対応スマホ・PC上での実行が可能に

主な量子化の種類

種類概要
Post-Training Quantization (PTQ)学習後にモデルを量子化(簡単・高速)
Quantization-Aware Training (QAT)学習時から量子化を意識(高精度)
動的量子化推論時に動的に量子化
静的量子化事前に量子化スケールを決定

精度別の特徴

精度ビット数用途
FP3232学習時の標準
FP16 / BF1616学習・推論の標準軽量版
INT88推論の標準的な量子化
INT44コンシューマGPU向け軽量化
1-2bit1〜2研究レベルの極端な圧縮

代表的な手法

  • GPTQ:勾配情報を使う高精度なPTQ
  • AWQ:活性化を考慮した重み量子化
  • **GGUF / llama.cpp**:CPU/コンシューマGPUでLLMを動かす標準フォーマット
  • bitsandbytes:4bit/8bit学習・推論の定番ライブラリ

メリットと留意点

メリット

  • 同じハードウェアで大きなモデルが動く
  • 推論速度が大幅に向上
  • ローカル環境(PC・モバイル)での実行が現実的に

留意点

  • 精度低下のリスク(モデル・タスクにより影響度が異なる)
  • 量子化で性能差が出やすい計算(Attentionなど)には注意
  • 1bit/2bit級は研究段階で実用には注意

実務での選択

  • **クラウドAPI利用** → 量子化を意識する場面は少ない
  • オンプレミス・エッジ運用 → INT8 or INT4が現実的な選択肢
  • モバイル運用 → INT4以下+専用形式(GGUF等)

量子化は「フロンティア級のAIを身近なハードウェアで動かす」鍵で、オープンソースAIの実用化を支える基幹技術です。

AI用語集に戻る

この用語をシェア

AIの導入についてご相談ください

「うちの会社でも使えるの?」「何から始めればいい?」
そんな疑問に、30分のオンライン相談でお答えします。

無料相談を予約する