先日、Xで以下の投稿を見ました。
https://x.com/ComfyUI/status/1954920816300408938
これは蒸留モデルに言及していますが、そもそもモデルを知らなかったのでQwen-Imageについて初めて知りました。
Qwenってなんか聞いたことあるなと思ったら、LLMのQwenでした。チャット画面もありますね。
ちなみに、このQwenってアリババグループでして、グループ内ではWan2.2という動画生成モデルもあります。まぁ動画生成って相当マシンパワー使うのであんまりやったことはないのですが。
前置きが長くなりました。Comfy UIでワークフローを提供しているのでモデルをダウンロードしてきて試してみます。
https://docs.comfy.org/tutorials/image/qwen/qwen-image
ワークフローのリンクは二つあります。軽いので両方落としちゃっていいんですが、そもそもの話どっちが蒸留モデルですか?って感じですよね。まぁdistillのファイル名読めばいいんですが。
はい、distillの名前が入っているのが蒸留モデルです。書かれてないほうがオフィシャルです。重さとしてはそんなに変わらないのですが、速度が違います。LoRA使えば早くなるようですが、蒸留モデルは10ステップ、通常モデルは20ステップです。Qwenの推奨は40ですが。
最初の画像は20ステップで作成したものです。プロンプトはそのまま使用しています。このモデル、テキストの理解が良いらしいのでいろいろ試してみたいと思います。
ぱっと思いつくレベルで試してみましたが、テキストを書けるのは面白いです。ただ、ちょっと重いですね。日本語もまだ使えないのでメインで使われることはあまりないのかなと思います。今後、他からも似たようなものが出るのかなと思っています。(そうあってほしい)
ちなみにですが、Impressでも記事がありまして、そちらはRTX4090で試されています。RTX4090だと1分未満くらいだそうです。
https://pc.watch.impress.co.jp/docs/column/nishikawa/2038626.html
コメント
コメントを投稿