【Flux.1】Kontext Devのローカル環境構築

ComfyUIを使ってFlux.1 Kontext Devを実行するためのローカル環境を構築します。Google AI Studioを使ってプロンプトを作成する方法や、TeaCasheを使った画像生成時間の短縮についても紹介します。

モデルのダウンロード
1枚の画像から生成
1. ワークフローの作成
2. 実行結果
２枚の画像から生成
1. ワークフローの変更
2. 実行結果
  1. 「狐耳の少女を元の女性の右奥に座らせて、他は維持」を指示した場合
プロンプトの作成
画像生成時間の短縮

モデルのダウンロード

ComfyUIのテンプレートで初期設定されているモデルをダウンロードします。

チェックポイント

fp8版の「Flux.1 Kontext Dev」を使います。
fp8版以外にオリジナル、GGUF、Nunchaku高速推論版などがあります。

Flux.1 Kontext Dev fp8版のダウンロードページにアクセスし、ダウンロードボタンをクリック

ダウンロード完了後、「diffusion_models」フォルダに保存

テキストエンコーダー

二つのテキストエンコーダーモデルを使います。
「clip_l.safetensors」はHunyuan Videoでも使っているモデルです。
「t5xxl_fp8_e4m3fn_scaled.safetensors」に似た「umt5_xxl～」というモデルをWAN2.1で使っており、英語版か多言語版かの違いのようです。互換性があるという情報もありますが、念のため英語版を使います。

テキストエンコーダーのダウンロードページにアクセスし、「clip_l.safetensors」と「t5xxl_fp8_e4m3fn_scaled.safetensors」のダウンロードボタンをクリック

ダウンロード完了後、「text_encoders」フォルダに保存

VAE

「ae」を使います。

aeのダウンロードページにアクセスし、「ae.safetensors」のダウンロードボタンをクリック

ダウンロード完了後、「vae」フォルダに保存

1枚の画像から生成

ワークフローの作成

ComfyUIのテンプレートを使います。

ComfyUIを立ち上げて、「ワークフロー」の「テンプレートを参照」をクリック
開いたウィンドウで「Flux」をクリックし、「Flux Kontext Dev(Basic)」をクリック

バイパスされていない（紫色になっていない）「画像の読み込み（出力から）」の「アップロードするファイルを選択」で、画像ファイルを読み込む
「CLIP Text Encode(Positive Prompt)」に、画像を変更するためのプロンプトを入力
（プロンプト作成のコツはComfUI WikiのFlux.1 Kontextのページが参考になります。また、この記事の下の方でGoogle AI Studioを利用してプロンプト作成する方法を紹介します。）

実行結果

「小道を削除して、周りと同じ草花に置き換えて、他は維持」を指示した場合

以下のプロンプトでワークフローを実行した結果です。
「Remove the path from the image.
Replace the removed path with a field of blue flowers and grass matching the surrounding environment while keeping the woman in the exact same position, scale, and pose. Maintain identical subject placement, camera angle, framing, and perspective.」

小道が芝生に変わったものの、色が明らかに違います。
プロンプトの調整もしてみましたが、色を変えることはできても完全に合わせることはできませんでした。

「女性を歩いている状態から立って腕組している状態にして、他は維持」を指示した場合

以下のプロンプトでワークフローを実行した結果です。
「Change the woman’s pose from walking to standing still with her arms crossed. Preserve her exact facial features, purple eyes, long black hair, and her entire outfit (the black dress and the white cloak). Maintain the identical background with the stone path and blue flowers, as well as the same high-angle camera perspective.」

少し表情や顔の色味が変わっている気もしますが、結構いい感じです。
髪や服の動きを抑えられるともっと良くなりそうです。

「女性の表情を笑顔にして、他は維持」を指示した場合

以下のプロンプトでワークフローを実行した結果です。
「Change the woman’s facial expression to a soft, gentle smile. Preserve her exact facial features, identity, purple eye color, and long black hair. Keep her walking pose, outfit, and the entire background completely unchanged.」

口が変わっているだけだからか、なにか違和感がある表情になりました。
他のプロンプトも試しましたが、目を少し変化させることはできませんでした。
表情を変える場合は、顔がもっと大きい画像の方が良いかもしれません。

２枚の画像から生成

ワークフローの変更

1枚の画像から生成するワークフローを変更します。
「Image Stitch」が2枚の入力画像を並べて1枚の画像として出力する機能を持っているので、二つ目の「画像の読み込み（出力から）」を有効化すると、2枚目の画像が認識されるようになります。

バイパスされている（紫色になっている）「画像の読み込み（出力から）」をクリックし、ノードを選択
「選択したノードのバイパス/バイパス解除」をクリック（またはCtrl+B）し、バイパスを解除

二つの「画像の読み込み（出力から）」の「アップロードするファイルを選択」で、それぞれ画像ファイルを読み込む
（主体となる画像の方を大きく、抜粋する要素を提供する画像を小さくして、主従関係を明確にすると1枚の画像で出力されやすいです。）
「Image Stitch」の「match_image_size」を「false」に変更
「CLIP Text Encode(Positive Prompt)」に、画像を変更するためのプロンプトを入力

実行結果

「狐耳の少女を元の女性の右奥に座らせて、他は維持」を指示した場合

以下のプロンプトでワークフローを実行した結果です。
「Add a new character to the image: a girl with large orange fox ears, a fluffy orange fox tail, medium-length blonde hair, and blue eyes. She is wearing a black and white maid outfit. Place her in a sitting pose on the grass, to the right and slightly behind the original woman in the black dress. The new girl should be scaled smaller to fit the perspective and match the scene’s bright daylight. Ensure she is not holding a cake. It is crucial to perfectly maintain the original woman, the stone path, the blue flowers, the lighting, and the overall art style.」