アイキャッチ
TOP > みっちょ Lab > 夢想の断章 > Stable Diffusionバージョン描画比較

Stable Diffusionバージョン描画比較

Stable Diffusion の概要

Stable Diffusion (ステイブル・ディフュージョン) は、2022年8月 に公開された画像生成 AI モデルです。Stability AI の元、LMU Munich の CompVis ( Computer Vision & Learning research group ) と Runway 、LAION によって開発されたもので、オープンソースとしてリリースされているため誰でも無料で使用する事が可能です。

根本的にはテキストから画像を生成する、いわゆる Text-to-Image と呼ばれるディープラーニング (深層学習) のモデルの1つですが、Text-to-Image 以外にも Inpainting や OutPainting、Image-to-Image など様々な目的で使用する事ができるようになっています。

更にはモデルファイルに追加学習を施すなどして派生した新しいモデルを公開することも (ライセンスに従う限り) 誰でも可能なものとなっていますので、世界中で様々な新しいモデルが日々生まれ続けています。

Stable Diffusion に関して詳しく知りたい方はこちら

『Stable Diffusion』とは?その本質をプロが徹底解説! | クリゼミ
画像生成AIの代名詞「Stable Diffusion」とは?単なる道具ではなく、特定の思想と技術が結晶化した「プロダクト」としての正...

などを御参照ください。

今回行う比較の概要

今回は現在までに公開されている Stable Diffusion 本家モデルとも呼べる次の8つのバージョンを使って、シンプルな同じプロンプト (入力テキスト) で絵を描き比べてみたいと思います。

  • Stable Diffusion v1-1
  • Stable Diffusion v1-2
  • Stable Diffusion v1-3
  • Stable Diffusion v1-4
  • Stable Diffusion v1-5
  • Stable Diffusion v2-base
  • Stable Diffusion v2
  • Stable Diffusion v2-1

ちなみに Stable Diffusion モデルのバージョン番号は、ピリオドを使った v1.1 などではなくハイフンを使った v1-1 などで表されます。

それぞれのモデル間での FIDスコア や CLIPスコア などの特性の違いにはここでは触れません。気になる方は、以下で触れる各モデルの配布ページのグラフなどを御参照ください。

使用するプロンプトは次の4つです。

女性ポートレート

anime, digital painting, sharp focus, a portrait of a girl

男性ポートレート

photorealistic, highly detailed, a portrait of a man

リビングルーム

interior design, living room, wooden floor, high ceiling

呪われた廃墟

photo 8k 16k, detailed, landscape photo of cursed ruins

実際に Stable Diffusion を使用する際はもっと複雑なプロンプトを使用する場合が多いですが、今回は出来る限りシンプルなプロンプトで男女の人物、屋内外の風景を得る事を目的としました。

では早速いってみましょう。

Stable Diffusion v1-1

Stable Diffusion v1-1 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

CompVis/stable-diffusion-v-1-1-original · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

データセット laion2B-en を使って解像度 256x256 で 237,000ステップ のトレーニングを行った後、続けて laion-high-resolution を使って解像度 512x512 で 194,000ステップ のトレーニングを行ってあるモデルで、後続の v1-2~v1-5 のモデルの元となっているモデルになります。

sd-v1-1.ckpt

sd-v1-1.ckpt

sd-v1-1-full-ema.ckpt

sd-v1-1-full-ema.ckpt

Stable Diffusion v1-2

Stable Diffusion v1-2 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

CompVis/stable-diffusion-v-1-2-original · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Stable Diffusion v1-1 の状態からデータセット laion-improved-aesthetics を使って解像度 512x512 で 515,000ステップ の追加トレーニングを行ったモデルです。

sd-v1-2.ckpt

sd-v1-2.ckpt

sd-v1-2-full-ema.ckpt

sd-v1-2-full-ema.ckpt

Stable Diffusion v1-3

Stable Diffusion v1-3 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

CompVis/stable-diffusion-v-1-3-original · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Stable Diffusion v1-2 の状態からデータセット laion-improved-aesthetics を使って、分類器なし拡散ガイダンス を改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 195,000ステップ の追加トレーニングを行ったモデルです。

sd-v1-3.ckpt

sd-v1-3.ckpt

sd-v1-3-full-ema.ckpt

sd-v1-3-full-ema.ckpt

Stable Diffusion v1-4

Stable Diffusion v1-4 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

CompVis/stable-diffusion-v-1-4-original · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Stable Diffusion v1-2 の状態からデータセット laion-aesthetics v2 5+ を使って、分類器なし拡散ガイダンス を改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 225,000ステップ の追加トレーニングを行ったモデルです。

sd-v1-4.ckpt

sd-v1-4.ckpt

sd-v1-4-full-ema.ckpt

sd-v1-4-full-ema.ckpt

Stable Diffusion v1-5

Stable Diffusion v1-5 Model Card は、こちらの公式 Hugging Face リポジトリで runwayml から公開されています。

stable-diffusion-v1-5/stable-diffusion-v1-5 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

※ 元祖の配布リポジトリ(https://huggingface.co/runwayml/stable-diffusion-v1-5)は消滅したので、 現在の配布リポジトリに変更しました。
(2026/04/13)

Stable Diffusion v1-2 の状態からデータセット laion-aesthetics v2 5+ を使って、分類器なし拡散ガイダンス を改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 595,000ステップ の追加トレーニングを行ったモデルです。

v1-5-pruned-emaonly.ckpt

v1-5-pruned-emaonly.ckpt

v1-5-pruned.ckpt

v1-5-pruned.ckpt

Stable Diffusion v2-base

Stable Diffusion v2-base Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。

Manojb/stable-diffusion-2-base · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

※ 元祖の配布リポジトリ(https://huggingface.co/stabilityai/stable-diffusion-2-base)は消滅したので、 現存の配布リポジトリに変更しました。
(2026/04/13)

LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って解像度 256x256 で 550,000ステップ のトレーニングを行った後、続けて同じデータセットを使って解像度 512x512 で 850,000ステップ のトレーニングを行ってあるモデルで、後続の v2~v2-1 のモデルの元となっているモデルになります。

512-base-ema.ckpt

512-base-ema.ckpt

Stable Diffusion v2

Stable Diffusion v2 Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。

uwg/modelz_base · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

※ 元祖の配布リポジトリ(https://huggingface.co/stabilityai/stable-diffusion-2)は消滅したので、 現存の配布リポジトリに変更しました。
(2026/04/13)

Stable Diffusion v2-base の状態から LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って v-objective を使用して解像度 512x512 で 150,000ステップ の追加トレーニングを行った後、更に解像度 768x768 で 140,000ステップ の追加トレーニングを行ったモデルです。

768-v-ema.ckpt

768-v-ema.ckpt

Stable Diffusion v2-1

Stable Diffusion v2-1 Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。

Comfy-Org/stable_diffusion_2.1_repackaged · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.

※ 元祖の配布リポジトリ(https://huggingface.co/stabilityai/stable-diffusion-2-1)は消滅したので、 現存の配布リポジトリに変更しました。
(2026/04/13)

Stable Diffusion v2 の状態から LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って punsafe=0.1 で 55,000ステップ の追加トレーニングを行った後、 punsafe=0.98 で 155,000ステップ の追加トレーニングを行ったモデルです。

v2-1_768-nonema-pruned.ckpt

v2-1_768-nonema-pruned.ckpt

v2-1_768-ema-pruned.ckpt

v2-1_768-ema-pruned.ckpt

おまけ:分類器なし拡散ガイダンス

今回の記事では『分類器なし拡散ガイダンス』という言葉を何度も使用しました。品質を向上させる手法の1つですが、これに関してここでは詳しく説明することはしません。

もし興味がある方はこちらの解説

AIの意志を制御する魔法、CFG(分類器なし拡散ガイダンス)解説 | クリゼミ
生成AIがプロンプトに従う度合いを調整する技術「CFG(分類器なし拡散ガイダンス)」を分かりやすく解説します。なぜ画像が歪...

などを読んで頂けると、詳しくわかって楽しめるかと思います。

(📝 2022/12/31 ♻ 2023/01/01)