新しい画像生成モデル、Qwen-Imageを試してみる

実に中国らしい
 

先日、Xで以下の投稿を見ました。

https://x.com/ComfyUI/status/1954920816300408938

これは蒸留モデルに言及していますが、そもそもモデルを知らなかったのでQwen-Imageについて初めて知りました。

Qwenってなんか聞いたことあるなと思ったら、LLMのQwenでした。チャット画面もありますね。

https://chat.qwen.ai/

ちなみに、このQwenってアリババグループでして、グループ内ではWan2.2という動画生成モデルもあります。まぁ動画生成って相当マシンパワー使うのであんまりやったことはないのですが。

前置きが長くなりました。Comfy UIでワークフローを提供しているのでモデルをダウンロードしてきて試してみます。

https://docs.comfy.org/tutorials/image/qwen/qwen-image

ワークフローのリンクは二つあります。軽いので両方落としちゃっていいんですが、そもそもの話どっちが蒸留モデルですか?って感じですよね。まぁdistillのファイル名読めばいいんですが。

はい、distillの名前が入っているのが蒸留モデルです。書かれてないほうがオフィシャルです。重さとしてはそんなに変わらないのですが、速度が違います。LoRA使えば早くなるようですが、蒸留モデルは10ステップ、通常モデルは20ステップです。Qwenの推奨は40ですが。

LoRAを使った場合、明るくなった

最初の画像は20ステップで作成したものです。プロンプトはそのまま使用しています。このモデル、テキストの理解が良いらしいのでいろいろ試してみたいと思います。

英語のテキスト

日本語のテキスト、まだ難しいですね

ボディペイント。ちょっと読めない

道路にペイント。LoRA使用

ぱっと思いつくレベルで試してみましたが、テキストを書けるのは面白いです。ただ、ちょっと重いですね。日本語もまだ使えないのでメインで使われることはあまりないのかなと思います。今後、他からも似たようなものが出るのかなと思っています。(そうあってほしい)

ちなみにですが、Impressでも記事がありまして、そちらはRTX4090で試されています。RTX4090だと1分未満くらいだそうです。

https://pc.watch.impress.co.jp/docs/column/nishikawa/2038626.html

コメント