プロンプトと画像属性のガイド

Vertex AI で Imagen を使用するには、何を生成または編集するのかを示すテキストを指定する必要があります。この説明はプロンプトと呼ばれます。Vertex AI の生成 AI とのコミュニケーションは、主にこのプロンプトで行われます。

このガイドでは、テキストから画像へのプロンプトの一部を変更して異なる結果を生成する方法と、作成できる画像の例について説明します。また、テキストプロンプトと反復処理を使用して画像を編集する方法についても説明します。

プロダクトの使用

Vertex AI の Imagen に関連する使用基準とコンテンツ制限については、使用上のガイドラインをご覧ください。

コンテンツフィルタリング - 入力テキスト、アップロードされた画像、生成された画像

生成された画像は、望ましくないコンテンツや有害なコンテンツが除外されます。同様に、Vertex AI の Imagen が受け取るすべての入力は、不適切なコンテンツがないかチェックされます。これには、画像編集の場合の入力テキストプロンプトとアップロードされた写真が含まれます。詳細については、Imagen の責任ある AI と使用上のガイドラインをご覧ください。

Vertex AI での Imagen の不正使用の疑いがある場合や、生成された出力に不適切な内容や不正確な情報が含まれている場合は、不正行為が疑われるGoogle Cloud報告フォームを使用して報告することもできます。

プロンプト作成の基本（主題、コンテキスト、スタイル）

適切なプロンプトを作成する方法は常に同じではありませんが、いくつかのキーワードと修飾子を追加することで最終目標に近づくことができます。プロンプトを長くしたり複雑にしたりする必要はありません。ほとんどの場合に適切なプロンプトは記述的で明確なものです。

まず、主題、コンテキスト、スタイルについて考えることをおすすめします。

主題、コンテキスト、スタイルが強調されているプロンプト — 画像のテキスト: モダンなアパート）（主題）が超高層ビル（**コンテキストと背景**）に囲まれているスケッチ（**スタイル**）。

主題: プロンプトについて最初に考えるべきなのは主題、すなわち画像の主体となる物体、人物、動物、風景などです。
コンテキストと背景: その主題が配置される背景やコンテキストも同様に重要です。主題をさまざまな背景に置いてみてください。たとえば、スタジオの白い背景、屋外、屋内の環境などです。
スタイル: 最後に、希望する画像のスタイルを追加します。スタイルは、概括的なもの（絵画、写真、スケッチ）でも、特定化されたもの（パステル画、木炭画、アイソメトリック 3D）でもかまいません。

プロンプトの最初のバージョンを作成したら、目的の画像が得られるまで詳細を追加してプロンプトを改良します。反復処理が重要です。まずコアアイデアを定義し、生成された画像がビジョンに近づくまで、そのコアアイデアを絞り込み、拡張します。

フォトリアリスティックなサンプル画像 1 — プロンプト: 湖のそばにある春の公園

フォトリアリスティックなサンプル画像 2 — プロンプト: 湖のそばにある春の公園、**湖に沈む夕日、ゴールデンアワー**

フォトリアリスティックなサンプル画像 3 — プロンプト: 湖のそばにある春の公園、**湖に沈む夕日、ゴールデンアワー、赤く咲き誇る野生の花**

Imagen 3 プロンプトの作成

生成用 Imagen のモデルカードを表示する

Imagen 3 は、プロンプトが短くても、長くて詳細でも、アイデアを詳細な画像に変換できます。反復的なプロンプトを通じてビジョンを絞り込み、完璧な結果が得られるまで詳細を追加します。

短いプロンプトを使用すると、画像をすばやく生成できます。

Imagen 3 の短いプロンプトの例 — プロンプト: 20 代の女性のクローズアップ写真、ストリート写真、映画のワンシーン、落ち着いたオレンジの暖色調

長いプロンプトを使用すると、具体的な詳細を追加して画像を作成できます。

Imagen 3 の長いプロンプトの例 — プロンプト: ストリートフォトスタイルを活用した 20 代の女性の魅力的な写真。画像は、オレンジ色の暖色系の落ち着いた色調にし、映画のワンシーンのように見えるようにする必要があります。

Imagen 3 プロンプトの作成に関するその他のヒント:

わかりやすい表現を使用する: 具体的な形容詞や副詞を使用して、Imagen 3 の明確な画像を描きます。
コンテキストを提供する: 必要に応じて、AI の理解を助けるために背景情報を含めます。
特定のアーティストやスタイルを参照する: 特定の美学を念頭に置いている場合は、特定のアーティストや芸術運動を参照すると役に立ちます。
プロンプトエンジニアリングツールを使用する: プロンプトを改良して最適な結果を得るために、プロンプトエンジニアリングツールやリソースの使用をおすすめします。
個人写真やグループ写真の顔の細部を補正する:
- 写真の焦点として顔の細部を指定します（たとえば、プロンプトで「ポートレート」という単語を使用します）。
- 細部を改善するには、Imagen 3 Fast ではなく、Imagen 3 などの大規模なモデルを使用することをおすすめします。

画像内のテキストを生成する

Imagen 3 の画像にテキストを追加する機能により、創造的な画像生成が可能になります。この機能を最大限に活用するには、次のガイダンスに沿って操作してください。

確実に反復処理する: 目的の外観になるまで画像を再生成しなければならない場合があります。Imagen のテキスト統合は現在も進化しており、複数回試行することで最良の結果が得られることもあります。
テキストを短くする: 生成を最適化するには、テキストを 25 文字以下に制限します。
複数のフレーズ: 2 つから 3 つの異なるフレーズをテストして、追加情報を提供します。クリーンな構成にするため、フレーズは 3 つを超えないようにします。

プロンプト: タイトルとして太字のフォントで「Summerland」というテキストが書かれたポスター。このテキストの下には「Summer never felt so good」というスローガンが書かれています
ガイド付き配置: Imagen は指示どおりにテキストを配置しようとしますが、場合によっては変動が生じることがあります。この機能は継続的に改善されています。
フォントスタイルを引き出す: 一般的なフォントスタイルを指定して、Imagen の選択に微妙な影響を与えます。正確なフォントレプリケーションに依存せず、クリエイティブな解釈を想定してください。
フォントサイズ: フォントサイズまたはサイズの一般的な指標（小、中、大など）を指定して、フォントサイズの生成に影響を与えます。

プロンプトのパラメータ化

出力結果をより適切に制御するには、Imagen API または Vertex AI SDK for Python を使用するときに、Imagen への入力をパラメータ化すると便利です。たとえば、お客様がビジネスのロゴを生成できるようにし、ロゴが常に単色の背景で生成されるようにしたいとします。また、クライアントがメニューから選択できるオプションを制限することもできます。

この例では、次のようなパラメータ化されたプロンプトを作成できます。

A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.

カスタムユーザーインターフェースでは、ユーザーはメニューを使用してパラメータを入力できます。選択した値が、Imagen が受け取るプロンプトに入力されます。

例:

プロンプト: A minimalist logo for a health care company on a solid color background. Include the text Journey.
プロンプト: A modern logo for a software company on a solid color background. Include the text Silo.
プロンプト: A traditional logo for a baking company on a solid color background. Include the text Seed.

スタイル: 写真

プロンプトに「...の写真」が含まれる

このスタイルを使用するには、写真を探していることを Vertex AI の Imagen に明確に伝えるキーワードを最初に使用します。プロンプトに「...の写真」と記述します。例を示します。

^{画像の生成元: 各画像は、対応するテキストプロンプトと Imagen 3 モデルを使用して生成されました。}

スタイル: イラストとアート

プロンプトには、「...のpainting」、「...のsketch」という表現を含めます。

アートのスタイルは、鉛筆のスケッチなどのモノクロスタイルから、ハイパーリアルなデジタルアートまで、多岐にわたります。たとえば、次の画像では、同じプロンプトを異なるスタイルで使用します。

「高層ビルを背景にした、角張ったスポーティな電動セダンの[art style or creation technique]」

アートのサンプル画像 — プロンプト: 角張った ... の**技術的な鉛筆画**

^{画像の生成元: 各画像は、対応するテキストプロンプトと Imagen 2 モデルを使用して生成されました。}

高度なプロンプト作成手法

以下の例を使用すると、属性（写真の記述子、形状と素材、歴史的な芸術運動、画質の修飾子）に基づいて、より具体的なプロンプトを作成できます。

写真の修飾子

次の例では、写真に固有のいくつかの修飾子とパラメータを見ることができます。

カメラの近接性 - クローズアップ、遠くから撮影

クローズアップによるカメラのサンプル画像 — プロンプト: コーヒー豆の**クローズアップ**写真

ズームアウトによるカメラのサンプル画像 — プロンプト: 散らかったキッチンに置かれた
コーヒー豆の小さな袋の**ズームアウト**写真

カメラの位置 - 空中、下から

プロンプト: 高層ビルがそびえる都会の航空写真

プロンプト: 下から撮影した青空と林冠の写真

照明 - 自然、ドラマチック、暖かい、寒い

自然光のサンプル画像 — プロンプト: モダンなアームチェアのスタジオ写真、**自然光**

ドラマチックな照明のサンプル画像 — プロンプト: モダンなアームチェアのスタジオ写真、**ドラマチックな照明**

カメラの設定 - モーションブラー、ソフトフォーカス、ボケ、ポートレート

モーションブラーのサンプル画像 — プロンプト: 高層ビルがそびえる都会を社内から撮影した**モーションブラー**のある写真

ソフトフォーカスのサンプル画像 — プロンプト: 都会の橋を夜間に撮影した**ソフトフォーカス**の写真

レンズの種類 - 35 mm、50 mm、魚眼、広角、マクロ

プロンプト: 葉の写真、マクロレンズ

プロンプト: 街路写真、ニューヨーク市、魚眼レンズ

フィルムの種類 - モノクロ、ポラロイド

ポラロイド写真のサンプル画像 — プロンプト: サングラスをかけた犬の**ポラロイドポートレート**

モノクロ写真のサンプル画像 — プロンプト: サングラスをかけた犬の**モノクロ写真**

^{画像の生成元: 各画像は、対応するテキストプロンプトと Imagen 3 モデルを使用して生成されました。}

形状と素材

プロンプトには、「... で作られた ...」、「... の形の ...」という表現を含めます。

このテクノロジーの強みの一つは、他の方法では困難または不可能な画像を作成できることです。たとえば、さまざまな素材やテクスチャで会社のロゴを再現できます。

形状と素材のサンプル画像 1 — プロンプト: チーズで**作った**ダッフルバッグ

形状と素材のサンプル画像 3 — プロンプト: **紙で作られた**アームチェア、スタジオ写真、折り紙スタイル

^{画像の生成元: 各画像は、対応するテキストプロンプトと Imagen 3 モデルを使用して生成されました。}

歴史的美術品のリファレンス

プロンプトには、「... スタイルの ...」という表現を含めます。

特定のスタイルは、長年の間に象徴的な存在になりました。歴史的絵画やアートのスタイルを試すためのアイデアのいくつかを、以下に紹介します。

「[art period or movement] スタイルの画像（風力発電所）を生成」

印象派のサンプル画像 — プロンプト: 印象派絵画の**スタイルの**画像（風力発電所）を生成

ルネサンス期のサンプル画像 — プロンプト: ルネサンス期絵画の**スタイルの**画像（風力発電所）を生成

ポップアートのサンプル画像 — プロンプト: ポップアート **スタイルの**画像（風力発電所）を生成

^{画像の生成元: 各画像は、対応するテキストプロンプトと Imagen 3 モデルを使用して生成されました。}

画像品質の修飾子

特定のキーワードから、高品質のアセットを探していることをモデルが認識できます。品質の修飾子の例を次に示します。

一般的な修飾子 - 高品質、美しい、図案化された
写真 - 4K、HDR、スタジオ写真
アート、イラスト - プロが作成した、詳細な

以下に、品質の修飾子を使用しない場合のプロンプトと、同じプロンプトで品質の修飾子を使用したいくつかの例を示します。

修飾子なしのトウモロコシのサンプル画像 — プロンプト（品質の修飾子なし）: トウモロコシの茎の写真

修飾子ありのトウモロコシのサンプル画像 — プロンプト（品質の修飾子付き）: **4k HDR 美しい**
**プロカメラマンが撮影した**
トウモロコシの茎の写真

^{画像の生成元: 各画像は、対応するテキストプロンプトと Imagen 3 モデルを使用して生成されました。}

アスペクト比

Imagen 3 の画像生成では、5 つの異なる画像アスペクト比を設定できます。

スクエア（1:1、デフォルト）- 標準の正方形の写真。このアスペクト比の一般的な用途としては、ソーシャルメディアの投稿などがあります。

全画面（4:3） - このアスペクト比は、メディアや映画でよく使用されます。また、古い（ワイドスクリーンではない）テレビやミディアムフォーマットカメラでも使用されています。1:1 と比べると、横方向に広いシーンをキャプチャできるため、写真撮影に適したアスペクト比です。

アスペクト比の例 — プロンプト: ピアノを弾いているミュージシャンの手のアップ、モノクロフィルム、ヴィンテージ（4:3 のアスペクト比）

縦向き全画面（3:4） - 全画面のアスペクト比を 90 度回転したもの。1:1 のアスペクト比と比べると、縦方向に広がるシーンをキャプチャできます。

ワイドスクリーン（16:9）- 4:3 に代わって、テレビ、モニター、スマートフォンの画面（横向き）で最も一般的なアスペクト比。風景など、広い背景を撮影する場合に使用します。

プロンプト: 全身白の服を着た男性がビーチに座っている, クローズアップ, ゴールデンアワーの照明（アスペクト比 16:9）
縦向き（9:16）- 比率はワイドスクリーンですが、回転しています。これは、ショート動画アプリ（YouTube ショートなど）で普及している比較的新しいアスペクト比です。建物、木、滝など、縦方向に長い対象に使用します。

プロンプト: 巨大な高層ビルのデジタルレンダリング, モダン, 壮大, 壮大な背景に美しい夕日（9:16 のアスペクト比）

ネガティブプロンプト

前の例では、Imagen に何を作成させるのかを示すプロンプトの記述に重点を置きましたが、製品が画像の生成や編集を行うとき助けになるよう、元のプロンプトとともに否定的なプロンプトを指定することもできます。このような否定的なプロンプトは、画像から除外する要素を指定でき、強力なツールになります。単純に、含めたくないものを記述します。

推奨 - 含めたくないものをわかりやすく記述します。たとえば、「壁、フレーム」のように指定します。

非推奨 - 手順を示す言葉や、「なし」や「しない」などの言葉は避けます。たとえば、「壁なし」や「壁を表示しない」などの文言の使用は避けてください。

否定的なプロンプトなしで描画されるサンプル画像 — プロンプト（否定的なプロンプトなし）: 4K ビデオゲームのコンセプトアート、都会のジャングル、サイバーパンクシティ、詳細なレンダリング

否定的なプロンプトありで描画されるサンプル画像 — プロンプト: 4K ビデオゲームのコンセプトアート、都会のジャングル、サイバーパンクシティ、詳細なレンダリング
否定的なプロンプト: **緑、植物、森、木**

フォトリアリスティックな画像

画像生成モデルのさまざまなバージョンによって、芸術的な出力とフォトリアリスティックな出力が混在する場合があります。プロンプトで次の表現を使用することで、生成する主題に応じてよりフォトリアリスティックな出力を生成できます。

ユースケース	レンズの種類	レンズ焦点距離	補足情報
人（縦向き）	プライム、ズーム	24～35mm	モノクロフィルム、フィルムノワール、被写界深度、デュオトーン（2 色について言及）
食品、虫、植物（物体、静物）	マクロ	60～105mm	高精細、正確なフォーカス、照明の制御
スポーツ、野生動物（モーション）	望遠ズーム	100～400mm	高速シャッタースピード、アクションまたは動作のトラッキング
天体、風景（広角）	広角	10～24mm	長い露光時間、シャープフォーカス、長時間露光、滑らかな水や雲

ポートレート

ユースケース	レンズの種類	レンズ焦点距離	補足情報
人（縦向き）	プライム、ズーム	24～35mm	モノクロフィルム、フィルムノワール、被写界深度、デュオトーン（2 色について言及）

このテーブルから複数のキーワードを使用して、Imagen により次のポートレートを生成できます。

プロンプト: 女性、35mm の縦向き、青とグレーのデュオトーン
モデル: Imagen 3（imagen-3.0-generate-002）

プロンプト: 女性、35mm 縦向き、フィルムノワール
モデル: Imagen 3（imagen-3.0-generate-002）

オブジェクト

ユースケース	レンズの種類	レンズ焦点距離	補足情報
食品、虫、植物（物体、静物）	マクロ	60～105mm	高精細、正確なフォーカス、照明の制御

このテーブルから複数のキーワードを使用して、Imagen により次のオブジェクト画像を生成できます。

プロンプト: 花類、リーフ、60mm
モデル: Imagen 3（imagen-3.0-generate-002）

プロンプト: パスタのプレート、100mm マクロレンズ
モデル: Imagen 3（imagen-3.0-generate-002）

モーション

ユースケース	レンズの種類	レンズ焦点距離	補足情報
スポーツ、野生動物（モーション）	望遠ズーム	100～400mm	高速シャッタースピード、アクションまたは動作のトラッキング