Stable Diffusion

今更だけど、ちょっと遊んでみた。VAEのエンコーダで低次元の潜在空間に圧縮して、拡散させて、それをUNETで復元する際にCLIPを経由した生成指示情報を各層のAttentionに埋め込み、VAEのデコーダでピクセルに復元するとな。なるほど、完全に理解した。当たり前だけど、よく考えられているなぁ。

続きを読む Stable Diffusion

猫認識AI

物体検出AIであるYOLOv7を使って、自分の撮った写真に何が写っているのか・・・というか自分は何をどれだけ撮っているのかを調べようと思った。もし比較的簡単にうまく学習できるなら、何をどのような構図で撮っているか、みたいな分析もできるかも。

続きを読む 猫認識AI