Stable Diffusion

今更だけど、ちょっと遊んでみた。VAEのエンコーダで低次元の潜在空間に圧縮して、拡散させて、それをUNETで復元する際にCLIPを経由した生成指示情報を各層のAttentionに埋め込み、VAEのデコーダでピクセルに復元するとな。なるほど、完全に理解した。当たり前だけど、よく考えられているなぁ。

続きを読む Stable Diffusion