解説
画像生成AIの主流技術。画像にノイズを加えて壊したものを、逆再生するように復元することで新しい画像を生成する仕組み。
さらに詳しく解説
拡散モデルとは
拡散モデル(Diffusion Model)は、AIによる画像生成の中核技術です。データにノイズを徐々に加えていく過程(拡散過程)を学習し、その逆過程でノイズから画像を生成します。Stable DiffusionやDALL-Eなどの画像生成AIの基盤として使われています。
基本的な仕組み
順拡散過程(Forward Process)
元の画像に段階的にガウシアンノイズを加え、最終的に完全なノイズに変換します。このプロセスは固定されたマルコフ連鎖として定義され、学習の必要がありません。
逆拡散過程(Reverse Process)
ニューラルネットワークが各段階でのノイズを予測し、段階的にノイズを除去して画像を生成します。この「ノイズ除去」のプロセスを学習することが拡散モデルの核心です。
潜在拡散モデル
Stable Diffusionで採用されている手法で、画像をそのまま処理するのではなく、低次元の潜在空間に変換してから拡散過程を適用します。これにより計算量を大幅に削減しつつ、高品質な画像生成を実現しています。
テキストからの画像生成
CLIPなどのVLM(Visual Language Model)がテキストと画像の関係性を学習し、その情報を条件として拡散モデルに与えることで、プロンプトに応じた画像を生成できます。
他の生成モデルとの比較
GAN(敵対的生成ネットワーク)との違い
GANは精巧な画像生成に優れますが、学習が不安定になりやすいです。拡散モデルは学習が安定しており、多様性の高い画像を生成できます。
応用分野
- 画像生成: テキストからの画像生成、画像の編集
- 超解像: 低解像度画像の高画質化
- 医療: MRI・CT画像のノイズ除去
- 動画生成: 動画生成AIへの応用
- 音声合成: 音声データの生成
