Stable Diffusionバージョン描画比較
Stable Diffusion の概要
Stable Diffusion (ステイブル・ディヒュージョン) は、2022年8月 に公開された画像生成 AI モデルです。Stability AI の元、LMU Munich の CompVis ( Computer Vision & Learning research group ) と Runway 、LAION によって開発されたもので、オープンソースとしてリリースされているため誰でも無料で使用する事が可能です。
根本的にはテキストから画像を生成する、いわゆる Text-to-Image と呼ばれるディープラーニング (深層学習) のモデルの1つですが、Text-to-Image 以外にも Inpainting や OutPainting、Image-to-Image など様々な目的で使用する事ができるようになっています。
更にはモデルファイルに追加学習を施すなどして派生した新しいモデルを公開することも (ライセンスに従う限り) 誰でも可能なものとなっていますので、世界中で様々な新しいモデルが日々生まれ続けています。
Stable Diffusion に関して詳しく知りたい方はこちら
などを御参照ください。
今回行う比較の概要
今回は現在までに公開されている Stable Diffusion 本家モデルとも呼べる次の8つのバージョンを使って、シンプルな同じプロンプト (入力テキスト) で絵を描き比べてみたいと思います。
- Stable Diffusion v1-1
- Stable Diffusion v1-2
- Stable Diffusion v1-3
- Stable Diffusion v1-4
- Stable Diffusion v1-5
- Stable Diffusion v2-base
- Stable Diffusion v2
- Stable Diffusion v2-1
ちなみに Stable Diffusion モデルのバージョン番号は、ピリオドを使った v1.1 などではなくハイフンを使った v1-1 などで表されます。
それぞれのモデル間での FIDスコア や CLIPスコア などの特性の違いにはここでは触れません。気になる方は、以下で触れる各モデルの配布ページのグラフなどを御参照ください。
使用するプロンプトは次の4つです。
女性ポートレート
anime, digital painting, sharp focus, a portrait of a girl
男性ポートレート
photorealistic, highly detailed, a portrait of a man
リビングルーム
interior design, living room, wooden floor, high ceiling
呪われた廃墟
photo 8k 16k, detailed, landscape photo of cursed ruins
実際に Stable Diffusion を使用する際はもっと複雑なプロンプトを使用する場合が多いですが、今回は出来る限りシンプルなプロンプトで男女の人物、屋内外の風景を得る事を目的としました。
では早速いってみましょう。
Stable Diffusion v1-1
Stable Diffusion v1-1 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。
データセット laion2B-en を使って解像度 256x256 で 237,000ステップ のトレーニングを行った後、続けて laion-high-resolution を使って解像度 512x512 で 194,000ステップ のトレーニングを行ってあるモデルで、後続の v1-2~v1-5 のモデルの元となっているモデルになります。
sd-v1-1.ckpt
sd-v1-1-full-ema.ckpt
Stable Diffusion v1-2
Stable Diffusion v1-2 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。
Stable Diffusion v1-1 の状態からデータセット laion-improved-aesthetics を使って解像度 512x512 で 515,000ステップ の追加トレーニングを行ったモデルです。
sd-v1-2.ckpt
sd-v1-2-full-ema.ckpt
Stable Diffusion v1-3
Stable Diffusion v1-3 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。
Stable Diffusion v1-2 の状態からデータセット laion-improved-aesthetics を使って、分類器無しのガイダンス・サンプリング を改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 195,000ステップ の追加トレーニングを行ったモデルです。
sd-v1-3.ckpt
sd-v1-3-full-ema.ckpt
Stable Diffusion v1-4
Stable Diffusion v1-4 Model Card は、こちらの公式 Hugging Face リポジトリで CompVis から公開されています。
Stable Diffusion v1-2 の状態からデータセット laion-aesthetics v2 5+ を使って、分類器無しのガイダンス・サンプリング を改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 225,000ステップ の追加トレーニングを行ったモデルです。
sd-v1-4.ckpt
sd-v1-4-full-ema.ckpt
Stable Diffusion v1-5
Stable Diffusion v1-5 Model Card は、こちらの公式 Hugging Face リポジトリで runwayml から公開されています。
Stable Diffusion v1-2 の状態からデータセット laion-aesthetics v2 5+ を使って、分類器無しのガイダンス・サンプリング を改良するためにテキストコンディショニングを 10% 落とし、解像度 512x512 で 595,000ステップ の追加トレーニングを行ったモデルです。
v1-5-pruned-emaonly.ckpt
v1-5-pruned.ckpt
Stable Diffusion v2-base
Stable Diffusion v2-base Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。
LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って解像度 256x256 で 550,000ステップ のトレーニングを行った後、続けて同じデータセットを使って解像度 512x512 で 850,000ステップ のトレーニングを行ってあるモデルで、後続の v2~v2-1 のモデルの元となっているモデルになります。
512-base-ema.ckpt
Stable Diffusion v2
Stable Diffusion v2 Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。
Stable Diffusion v2-base の状態から LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って v-objective を使用して解像度 512x512 で 150,000ステップ の追加トレーニングを行った後、更に解像度 768x768 で 140,000ステップ の追加トレーニングを行ったモデルです。
768-v-ema.ckpt
Stable Diffusion v2-1
Stable Diffusion v2-1 Model Card は、こちらの公式 Hugging Face リポジトリで stabilityai から公開されています。
Stable Diffusion v2 の状態から LAION-5B に LAION-NSFW 分類器を使ってフィルターしたデータセットを使って punsafe=0.1 で 55,000ステップ の追加トレーニングを行った後、 punsafe=0.98 で 155,000ステップ の追加トレーニングを行ったモデルです。
v2-1_768-nonema-pruned.ckpt
v2-1_768-ema-pruned.ckpt
おまけ:分類器無しのガイダンス・サンプリング
今回の記事では『分類器無しのガイダンス・サンプリング』という言葉を何度も使用しました。品質を向上させる手法の1つですが、これに関してここでは詳しく説明することはしません。
もし興味がある方はこちらの論文
などを読まれてみると、詳しくわかって楽しめるかと思います。