Nano Banana のプロンプト方法の究極ガイド

Khulan Davaajav
Product Marketing Manager, Gen Media
Hussain Chinoy
Technical Solutions Manager, Google Cloud
※この投稿は米国時間 2026 年 3 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。
正確で高品質な画像を生成するには、試行錯誤がつきものです。ユーザーは、自分の要求を正確に理解してくれるようなモデルを求めています。
Gemini 3 ファミリーのモデルを基盤とする Nano Banana モデルは、高度な推論機能を使用し、プロンプトを細部まで理解したうえで画像を生成します。そこで、Nano Banana 2 と Nano Banana Pro を数週間かけてテストし、さまざまなユースケースを試して、その限界に挑みました。
このガイドでは、このテストから Google が学んだことと、最良の結果を得る方法を共有します。
このガイドの内容
-
モデルの概要
-
技術仕様の詳細
-
効果的なプロンプトを作成するためのベスト プラクティス
-
プロンプトの作成に関するフレームワーク
-
Nano Banana と他のクリエイティブ モデル、Veo、Lyria との連携
モデルの概要
Nano Banana モデルは、実世界の知識と高度な推論機能を使用して正確かつ豊富なビジュアルを出力する、高度な画像生成および編集モデルです。Google は最近、Nano Banana 2 を発表しました。このモデルは次の 3 つの点で優れています。
-
正確性の高いビジュアル: Nano Banana 2 では、ウェブ検索から得たリアルタイムの情報や画像を活用できます。そのため、教育ツールや、マーケティングのローカライズ、旅行アプリなどのユースケースで、効果がいっそう高まります。
-
高速なプロレベルの機能: テキストのレンダリングや翻訳から、2K / 4K へのアップスケーリングまで、プレミアム機能が利用可能になりました。クリエイティブ チームがストーリーや、ストーリーボード、商品のモックアップを構築するようなユースケースで、一貫性を維持できます。
-
きめ細かな制御: 16:9、9:16、2:1 などがネイティブでサポートされており、あらゆるプロジェクトの要件に合わせて画像を生成、編集できます。ポスター、マーケティング用モックアップ、広告など、さまざまな出力で鮮やかな照明と豊かな質感を実現できます。
Nano Banana 2 と Nano Banana Pro の技術仕様の詳細
プロンプトについて解説する前に、まず、API と Vertex AI を介した処理におけるモデルの技術仕様を以下に示します(最新情報については、Gemini 3 Pro Image と Gemini 3.1 Flash Image の公式ドキュメントをご確認ください)。
-
コンテキスト ウィンドウ: Gemini 3.1 Flash Image(Nano Banana 2)は最大 131,072 個の入力トークンを、Gemini 3 Pro Image(Nano Banana Pro)は最大 65,536 個の入力トークンをサポートしています。どちらのモデルも、最大 32,768 個の出力トークンをサポートしています。
-
解像度: 1K、2K、4K のビジュアルを生成する機能が組み込まれています。Gemini 3.1 Flash Image では、より小さい 512 ピクセル(0.5K)にも対応しています。
-
アスペクト比: どちらのモデルも、1:1、3:2、2:3、3:4、4:3、4:5、5:4、9:16、16:9、21:9 をサポートしています。Gemini 3.1 Flash Image プレビューは、1:4、4:1、1:8、8:1 のアスペクト比にも対応しています。
-
画像入力: 1 つのプロンプトで最大 14 個の参照オブジェクトの画像を組み合わせることができます。サポートされている MIME タイプには、image/png、image/jpeg、image/webp、image/heic、image/heif が含まれます。
-
ドキュメント入力: テキストと PDF ファイルを入力できます。ファイルあたりの最大サイズは、API または Cloud Storage を介したインポートでは 50 MB、Google Cloud コンソールからの直接アップロードでは 7 MB です。
-
出力: 両モデルとも、テキストと画像を出力します。
-
モデルのナレッジベース: 両モデルとも、ナレッジ カットオフ日は 2025 年 1 月です。
-
ライブデータ: 両モデルとも、ウェブ検索からのリアルタイム情報を使用しています。
-
信頼性と安全性: 生成されたすべての画像には、C2PA Content Credentials と SynthID の透かしが含まれています。
主な機能の例については、こちらのブログ記事をご覧ください。
効果的なプロンプトを作成するためのベスト プラクティス
求めているようなビジュアルを確実に生成するために、プロンプトの作成方法のコツがいくつかあります。以下にガイドラインを示します。
-
具体的に表現する: 被写体、照明、構図について細部まで具体的に指示します。
-
ポジティブなフレーミングを使用する: 求めないものを伝えるのではなく、求めるものを説明します(例: 「車を入れない」ではなく「空っぽの通り」と表現する)。
-
カメラを制御する:「ローアングル」や「空撮」など、写真や映画の撮影用語を使用します。
-
イテレーション: 内容を補足するプロンプトを追加して会話を続け、画像に改良を加えていきます。
重要なのは、実行したい主な操作を伝えるために、はっきりとした動詞を使ってプロンプトを開始することです。
プロンプトの作成に関する 5 つのフレームワーク
1. 画像生成
画像を生成するためのプロンプトの構造は、参照画像を使用するか、テキストのみを使用するかによって大きく異なります。
テキストから画像を生成(参照画像なし)
空白のキャンバスから始める場合、あなたは監督として、シーンを物語のように説明する必要があります。キーワードを単純に並べるだけでは不十分です。
公式: [題材] + [アクション] + [場所 / 背景] + [構図] + [スタイル]
プロンプトの例: [題材] 茶色のテーラード ドレスと格好いいブーツを身に着け、カチッとしたハンドバックを手に持った、存在感のあるファッション モデル。[アクション] 自信に満ちた堂々としたポーズで、少し横を向いている。[場所 / 背景] スタジオ撮影用の、濃いチェリーレッド色の継ぎ目のない背景布。[構図] ミディアム ショットまたはフルショットで、中央に配置。[スタイル] ファッション雑誌風。中判のアナログ フィルムで撮影した、粒状感がある、色鮮やかな写真。シネマ風の照明効果。


マルチモーダルの生成(参照画像あり)
Gemini では、複数の参照画像を組み合わせて最終出力を指示できます。この方法は、キャラクターの一貫性を維持したり、商品をほかの背景に組み込んだりしたい場合に最適です。
公式: [参照画像] + [関係の指示] + [新しいシナリオ]
プロンプトの例: 添付のラフスケッチを構造とし、添付の生地サンプルを素材として [参照画像]、高精細な 3D のアームチェアをレンダリングして [関係]。日当たりの良いミニマルなリビングルームに配置して [新しいシナリオ]。
注: 以下の例の元画像も Nano Banana で生成されています。


2. 画像編集
画像の編集においては、画像の生成とは異なる発想が必要となります。基本となる画像はすでにあるため、プロンプトでは、何を変化させ、何を変化させないかに焦点を当てる必要があります。
会話を通して編集する(新しい参照画像なし)
画像を生成してから、会話を通して調整できます。
-
セマンティックなマスク定義(インペイント): テキストで「マスク」を定義して、画像の特定の部分を編集し、残りの部分はそのままにできます。
-
プロンプトのヒント: 変更したくない部分を明確に指定しましょう。プロンプトの例:「写真から男性を削除して」


構図とスタイルの変更(新しい参照画像を使用)
プロンプトで新しい画像を追加して、既存の画像に変更を加えられます。
-
要素の追加: ベース画像と追加オブジェクトの画像をアップロードし、それらを組み合わせるように指示します。
-
スタイルの変更: 写真をアップロードし、異なる画風で再現するように指示します。たとえば、都会のストリートの写真を、ゴッホの絵画風に変換できます。
構図


スタイルの変換


3. ウェブ検索からリアルタイムの情報を取得
Gemini 画像モデルでは、ウェブをその都度検索して、リアルタイムの情報に基づいて画像を生成できます。
プロンプトの方法: 架空のシーンを説明するのではなく、実世界のデータを取得するよう指示し、それをビジュアル化する方法を指定します。
公式: [ソース / 検索リクエスト] + [分析タスク] + [ビジュアルの変換]
プロンプトの例: [サンフランシスコの今日の天気と日付を検索して] + [この情報を分析して、風景に反映させて(例: 今の天気が雨なら、曇り空や雨空にするなど)] + [この風景をコンパクトなミニチュア都市にして、最新型のリアルなスマートフォン画面に埋め込んで]


3 月 3 日火曜日にプロンプトした結果
Nano Banana 2 では、ウェブ検索から得たリアルタイムの情報や画像を活用できます。まもなく Vertex AI でもこの機能が利用できるようになり、より正確性の高いビジュアルを作成することが可能となります。
4. テキスト レンダリングとローカライズ
Nano Banana 2 と Nano Banana Pro は、鮮明で読みやすいテキストをレンダリングできるのが特長であり、インパクトのあるポスターや、図、商品のモックアップに最適です。また、最先端の多言語テキスト生成機能を備えており、10 を超える言語に対応しています。
タイポグラフィの結果を最適化するには、次のルールに従うようにしましょう。
-
語句を囲む: 対象の語句を括弧で囲みます(例: 「Happy Birthday」や「URBAN EXPLORER」など)。
-
フォントを選択: タイポグラフィのスタイルやフォント名を指定します。たとえば、「白い太字のゴシック体」や「Century Gothic 12px フォント」とプロンプトに入力します。
-
翻訳とローカライズ: 1 つの言語でプロンプトのテキストを入力し、出力の言語を指定できます。
-
テキストを先に練る: テキストを含む画像を生成するときは、Gemini 画像モデルと会話してテキストのコンセプトを作り上げてから、そのテキストを画像に変換するように頼むと、良い結果が得られます。
例:「ヌードカラーのフェイス クリームの広告写真を作成して。フェイス クリームの瓶は上品でミニマルなデザインに、スタジオ撮影の背景は暖かい雰囲気にして、高級感とツヤ感のある綺麗な写真に仕上げて。照明は、柔らかで明るくして。商品の横に、3 行のテキストを次のようにレンダリングして。一番上の行には、流れるようなエレガントな Brush Script フォントで「GLOW」、真ん中の行には、太字のブロック体の Impact フォントで「10% OFF」、一番下の行には、細いミニマルな Century Gothic フォントで「Your First Order」と表示して。その後、このテキストを韓国語とアラビア語に翻訳して」


「黒一色の背景の中央に、「New York」という太字の文字を配置したタイポグラフィ ポスター。テキストを窓のように中抜きにして、その窓からニューヨークのスカイラインの写真が見えるようにして」


5. クリエイティブ ディレクターのようにプロンプト作成する
生成される画像を単に「良い」から「素晴らしい」ものにするには、キーワードを羅列するだけでなく、シーンについて描写する必要があります。Gemini 画像モデルは、スタジオ品質の制御が可能です。クリエイティブ ディレクターの視点でプロンプトを作成する方法を以下に紹介します。
1. 照明をデザインする
シーンの照明について細かく伝えます。
-
スタジオの照明設定: 商品を均一に照らすためには、「ソフトボックスを使った3 点照明」をリクエストします。
-
ドラマチックな効果: 「キアロスクーロ技法で、コントラストを大きく、極端にして」、「ゴールデン アワーのバックライトで、長い影を作って」といったプロンプトを入力します。


2. カメラ、レンズ、フォーカスを選択する
特定のハードウェアや写真用語を使って、ショットの奥行き、歪み、遠近感を調整します。
-
ハードウェア: カメラの種類を正確に指定し、ビジュアルの基本的な特徴を変更できます。たとえば、GoPro を指定して、没入感のある歪んだアクションを生み出す、Fujifilm カメラを指定して、サイエンスに基づいた本格的な色合いを再現する、安価な使い捨てカメラを指定して、フラッシュの醸し出すノスタルジーや未加工のうつくしさを表現する、といったことができます。
-
レンズ: 遠近感を強調するには、「ローアングル ショットで、被写界深度を浅くして(f/1.8)」と明確にリクエストします。広範囲を見せたい場合は、「広角レンズ」をリクエストします。複雑なディテールを表現するには、「マクロレンズ」を指定します。


3. 色調やフィルムの種類を指定する
最終画像に適用する質感と色が、エモーショナルなトーンを左右します。
-
ノスタルジックな雰囲気やざらついた感じを出したい場合は、「1980 年代のカラーフィルムで撮影したかのような、粒状感のある画像にして」として指示します。
-
ムードのあるモダンな雰囲気にしたいなら、「シネマ風の色調で、落ち着いたティールトーンにして」といった具合に頼みます。


4. 素材と質感を強調する
ロゴや、商品、キャラクターを生成するときは、その素材や加工を指定するようにしましょう。たとえば、「スーツのジャケット」と伝えるだけでなく、「ネイビーブルーのツイード」と指定します。「アーマー」ではなく、「銀の葉の模様がエッチングされた、装飾的なエルフのプレート アーマー」とします。モックアップをデザインするときは、「ミニマルなセラミック製のコーヒーカップ」のように、表面の素材を指定します。


次のステップ
Nano Banana Pro と Nano Banana 2 は、Google の他の生成クリエイティブ モデルとシームレスに連携するように設計されています。
-
Nano Banana + Gemini: Gemini 3 は、プロンプトの作成やクリエイティブ ディレクションをサポートします。
-
Nano Banana + Veo: Nano Banana でアニメーションのキーフレームを作成し、Veo でその間の動画を生成できます。Veo 3.1 のプロンプト ガイドについては、こちらをご覧ください。
-
Nano Banana + Veo + Lyria: プロジェクトのビジュアルを生成してから、Lyria でカスタムの AI サウンドトラックを追加できます。Lyria について詳しくは、こちらをご覧ください。
- 生成メディア担当プロダクト マーケティング マネージャー、Khulan Davaajav
- Google Cloud、テクニカル ソリューション マネージャー、Hussain Chinoy



