Stable Diffusionバージョン描画比較

michyo on 12月 31, 2022 mod 1月 01, 2023 0

Stable Diffusionバージョン描画比較

Stable Diffusion の概要

Stable Diffusion (ステイブル・ディヒュージョン) は、2022年8月に公開された画像生成 AI モデルです。Stability AI の元、LMU Munich の CompVis ( Computer Vision & Learning research group ) と Runway 、LAION によって開発されたもので、オープンソースとしてリリースされているため誰でも無料で使用する事が可能です。

根本的にはテキストから画像を生成する、いわゆる Text-to-Image と呼ばれるディープラーニング (深層学習) のモデルの１つですが、Text-to-Image 以外にも Inpainting や OutPainting、Image-to-Image など様々な目的で使用する事ができるようになっています。

更にはモデルファイルに追加学習を施すなどして派生した新しいモデルを公開することも (ライセンスに従う限り) 誰でも可能なものとなっていますので、世界中で様々な新しいモデルが日々生まれ続けています。

Stable Diffusion に関して詳しく知りたい方はこちら

ja.wikipedia.org

Stable Diffusion

https://ja.wikipedia.org/wiki/Stable_Diffusion

Stable Diffusion - Wikipedia

などを御参照ください。

今回行う比較の概要

今回は現在までに公開されている Stable Diffusion 本家モデルとも呼べる次の８つのバージョンを使って、シンプルな同じプロンプト (入力テキスト) で絵を描き比べてみたいと思います。

Stable Diffusion v1-1
Stable Diffusion v1-2
Stable Diffusion v1-3
Stable Diffusion v1-4
Stable Diffusion v1-5
Stable Diffusion v2-base
Stable Diffusion v2
Stable Diffusion v2-1

ちなみに Stable Diffusion モデルのバージョン番号は、ピリオドを使った v1.1 などではなくハイフンを使った v1-1 などで表されます。

それぞれのモデル間での FIDスコアや CLIPスコアなどの特性の違いにはここでは触れません。気になる方は、以下で触れる各モデルの配布ページのグラフなどを御参照ください。

使用するプロンプトは次の４つです。

女性ポートレート

anime, digital painting, sharp focus, a portrait of a girl

男性ポートレート

photorealistic, highly detailed, a portrait of a man

リビングルーム

interior design, living room, wooden floor, high ceiling

呪われた廃墟

photo 8k 16k, detailed, landscape photo of cursed ruins

実際に Stable Diffusion を使用する際はもっと複雑なプロンプトを使用する場合が多いですが、今回は出来る限りシンプルなプロンプトで男女の人物、屋内外の風景を得る事を目的としました。

では早速いってみましょう。

Stable Diffusion v1-1

Stable Diffusion v1-1 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

huggingface.co

Stable Diffusion v1-1 Model Card

https://huggingface.co/CompVis/stable-diffusion-v-1-1-original

Stable Diffusion v1-1 Hugging Faceリポジトリ

データセット laion2B-en を使って解像度 256x256 で 237,000ステップのトレーニングを行った後、続けて laion-high-resolution を使って解像度 512x512 で 194,000ステップのトレーニングを行ってあるモデルで、後続の v1-2～v1-5 のモデルの元となっているモデルになります。

sd-v1-1.ckpt

sd-v1-1-full-ema.ckpt

Stable Diffusion v1-2

Stable Diffusion v1-2 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

huggingface.co

Stable Diffusion v1-2 Model Card

https://huggingface.co/CompVis/stable-diffusion-v-1-2-original

Stable Diffusion v1-2 Hugging Faceリポジトリ

Stable Diffusion v1-1 の状態からデータセット laion-improved-aesthetics を使って解像度 512x512 で 515,000ステップの追加トレーニングを行ったモデルです。

sd-v1-2.ckpt

sd-v1-2-full-ema.ckpt

Stable Diffusion v1-3

Stable Diffusion v1-3 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

huggingface.co

Stable Diffusion v1-3 Model Card

https://huggingface.co/CompVis/stable-diffusion-v-1-3-original

Stable Diffusion v1-3 Hugging Faceリポジトリ

Stable Diffusion v1-2 の状態からデータセット laion-improved-aesthetics を使って、分類器無しのガイダンス・サンプリングを改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 195,000ステップの追加トレーニングを行ったモデルです。

sd-v1-3.ckpt

sd-v1-3-full-ema.ckpt

Stable Diffusion v1-4

Stable Diffusion v1-4 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。

huggingface.co

Stable Diffusion v1-4 Model Card

https://huggingface.co/CompVis/stable-diffusion-v-1-4-original

Stable Diffusion v1-4 Hugging Faceリポジトリ

Stable Diffusion v1-2 の状態からデータセット laion-aesthetics v2 5+ を使って、分類器無しのガイダンス・サンプリングを改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 225,000ステップの追加トレーニングを行ったモデルです。

sd-v1-4.ckpt

sd-v1-4-full-ema.ckpt

Stable Diffusion v1-5

Stable Diffusion v1-5 Model Card は、こちらの公式 Hugging Face リポジトリで runwayml から公開されています。

huggingface.co

Stable Diffusion v1-5 Model Card

https://huggingface.co/runwayml/stable-diffusion-v1-5

Stable Diffusion v1-5 Hugging Faceリポジトリ

Stable Diffusion v1-2 の状態からデータセット laion-aesthetics v2 5+ を使って、分類器無しのガイダンス・サンプリングを改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 595,000ステップの追加トレーニングを行ったモデルです。

v1-5-pruned-emaonly.ckpt

v1-5-pruned.ckpt

Stable Diffusion v2-base

Stable Diffusion v2-base Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。

huggingface.co

Stable Diffusion v2-base Model Card

https://huggingface.co/stabilityai/stable-diffusion-2-base

Stable Diffusion v2-base Hugging Faceリポジトリ

LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って解像度 256x256 で 550,000ステップのトレーニングを行った後、続けて同じデータセットを使って解像度 512x512 で 850,000ステップのトレーニングを行ってあるモデルで、後続の v2～v2-1 のモデルの元となっているモデルになります。

512-base-ema.ckpt

Stable Diffusion v2

Stable Diffusion v2 Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。

huggingface.co

Stable Diffusion v2 Model Card

https://huggingface.co/stabilityai/stable-diffusion-2

Stable Diffusion v2 Hugging Faceリポジトリ

Stable Diffusion v2-base の状態から LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って v-objective を使用して解像度 512x512 で 150,000ステップの追加トレーニングを行った後、更に解像度 768x768 で 140,000ステップの追加トレーニングを行ったモデルです。

768-v-ema.ckpt

Stable Diffusion v2-1

Stable Diffusion v2-1 Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。

huggingface.co

Stable Diffusion v2-1 Model Card

https://huggingface.co/stabilityai/stable-diffusion-2-1

Stable Diffusion v2-1 Hugging Faceリポジトリ

Stable Diffusion v2 の状態から LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って punsafe=0.1 で 55,000ステップの追加トレーニングを行った後、 punsafe=0.98 で 155,000ステップの追加トレーニングを行ったモデルです。

v2-1_768-nonema-pruned.ckpt