SD1.5系は縦長より横長のほうが崩れやすい?

 一時はFlux.1ばかり使ってたんですが、最近はあえてSD1.5系を使っています。ちゃんとワークフロー組むと結構なクオリティに仕上がることが分かったのでモデル変えていろいろ試しています。

アスペクト比としては1:1ばかりじゃ面白くないので3:4とか4:3のようにアスペクト比を変えてみています。そうするとそのフォーマットに適したポーズであったり構図で出来上がってきます。

そこまでは良いのですが、どうも傾向的に縦長より横長のほうが崩れやすい気がしています。これはモデル特有のものかもしれませんが打率としては縦長のほうが高いです。

おそらくは人物を描くとき縦長のほうが大きく書きやすく、結果として崩れにくいのかなとは思っています。実際、出てきた絵を見ると縦長のほうが人物が大きく書かれている傾向にあります。

テスト1

実際どれほど差があるのか試してみます。長辺を512pxとしたパターン、短辺を512pxとしたパターンでそれぞれ8枚生成します。

プロンプト:ultra detailed 8k cg, 1girl, full body, lying, beach

横長

512 x 384

682 x 512

傾向的に言えば512 x 384のほうが結果が良いです。682 x 512のほうは良くてこれなので、かなり数を打つ必要がありそうです。プロンプトの問題かもしれませんが。

縦長

384 x 512

512 x 682

どちらも奇形が出ないことはないですが、横長の比ではないです。細かく見ると指が足りないとかはありますが、そもそも人間でないものが出ることは少なかったです。

プロンプトが悪いかもしれません。もっと横長に向くようなプロンプトにしてみます。

テスト2

プロンプト:ultra detailed 8k cg, 1girl, full body, sitting on the floor, spread legs, beach

座って脚を開けば横長が向いているだろうという想定です。ストレッチのような形になると尚よいですが、思いつかなかったのでこれで。

横長

512 x 384


682 x 512

思った通り、崩れにくくなりました。ただ、682 x 512に関しては良くはなったものの細部で問題があることは残ったのであえて大きくする必要はないかもしれません。

一応、縦も試してみます。

縦長

384 x 512


682 x 512

今回は横でも縦でもさほど差はありませんでした。ただ、長辺を682にしたほうが細部がくずれやすくなりました。ただ、これはアップスケール時に変えられているところもあるので、アップスケール時に追加するノイズによって制限できそうです。

また、スケジューラーによっても適正があるようなのでそのあたりも探ってみると面白そうです。今回はDPMPP 2Mを使用しています。ベースの絵はKarasでその後はnormalにしています。

次回はサンプラーとスケジューラーを変えてみて絵柄がどう変化するか見てみたいと思います。

今回のモデル:Perfect World 完美世界

コメント