Veo 3.1 のプロンプトに関する究極のガイド

Khulan Davaajav
Global AI Content Manager
Hussain Chinoy
Gen AI Technical Solutions Manager
※この投稿は米国時間 2025 年 10 月 16 日に、Google Cloud blog に投稿されたものの抄訳です。
写真 1 枚は 1, 000 語の言葉での説明に値すると言いますが、動画ならさしずめ 100 万語の価値があるでしょうか。
クリエイターにとって、生成動画はあらゆるストーリーやコンセプトを形にする可能性を秘めています。しかし、実際には「プロンプトを入力して祈る」という具合に、キャラクターの一貫性、映画のような品質、物語の整合性をほとんどコントロールできずに、プロンプトをタイプしては、何が使える結果が出てくるのを期待するというイライラするようなサイクルが繰り返されてきました。
このガイドは、単なる生成からクリエイティブなコントロールへの移行を告げる最新モデル、Veo 3.1 を使いこなすためのフレームワークです。Veo 3.1 は Veo 3 をベースに、プロンプトへの忠実性を高め、画像を動画に変換する際の視覚的、聴覚的な品質を向上させています。
このガイドの学習内容
-
Vertex AI で Veo 3.1 の全機能を学ぶ。
-
一貫したキャラクターとスタイルでシーンを演出する方法を実装する。
-
プロの映画制作テクニックで映像と音声を演出する。
-
高度なワークフローで Veo と Gemini 2.5 Flash Image(Nano Banana)を組み合わせて、複雑なアイデアを実行する。
Veo 3.1 モデルの機能
まず、モデルのあらゆる機能を理解することが不可欠です。Veo 3.1 は、既存の機能に音声を追加して、完璧なシーンの作成ができるようにします。これらの機能は試験運用版であり、日々改善されています。皆様からのフィードバックに基づいてイテレーションを重ねる中で、どのような作品を作られるのかを楽しみにしています。
主な生成機能:
-
高忠実度動画: 720p または 1080p の解像度で動画を生成します。
-
アスペクト比: 16:9 または 9:16
-
クリップの長さは可変: 4 秒、6 秒、8 秒のクリップを作成します。
-
豊かな音声と会話: Veo 3.1 は、プロンプトに基づいて、複数人での会話から正確なタイミングの効果音まで、リアルで同期された優れた音声を生成します。
-
複雑なシーンの理解: 物語の構成や映画的なスタイルをより深く理解し、キャラクターのやり取り描き出し、ストーリーテリングのキューに従う。
高度なクリエイティブ管理:
-
画像から動画への変換を向上: 画像から動画への変換においてプロンプトへの忠実度を高め、オーディオビジュアルの品質も向上しました。
-
「動画素材」と一貫した要素: シーン、キャラクター、オブジェクト、スタイルの参照画像を提供すると、複数のショット間でも一貫した美観を維持します。この機能に音声生成が追加されました。
-
「最初と最後のフレーム」でシームレスなトランジション: 提供された開始画像と終了画像の間で、音声までも含めて自然な動画トランジションを生成します。
-
オブジェクトの追加/削除: 生成された動画への新しいオブジェクトの追加や、既存のオブジェクトの削除ができます。Veo はシーンの元の構図を維持します。
-
デジタル透かし: 生成されたすべての動画には、コンテンツが AI 生成であることを示す SynthID マークが付きます。
注: オブジェクトの追加/削除は現在 Veo 2 モデルを使用しており、音声は生成されません。
効果的なプロンプトを作成する公式
構造化されたプロンプトは、一貫した高品質の結果をもたらします。次の 5 つの要素を考慮して、思いどおりの動画を制作してください。
[映像] + [被写体] + [アクション] + [コンテキスト] + [スタイルと雰囲気]
-
映像: カメラワークとショットの構成を決めます。
-
被写体: 主人公や焦点となるものを特定します。
-
アクション: 被写体が何をしているかを記述します。
-
コンテキスト: 周囲と背景要素を詳しく記述します。
-
スタイルと雰囲気: 全体的な美観、ムード、照明を指定します。
プロンプトの例: 上半身のショット。疲れた会社員が、夜遅くに散らかったオフィスで、1980 年代の大きなコンピュータの前でこめかみを揉んでいる。シーンは、上からの蛍光灯の冷たい光と、モノクロ モニターの緑色の光で照らされている。レトロな雰囲気。1980 年代のカラーフィルムで撮影したかのような、少し粒子感のある映像。

プロンプトの基本的な手法
これらの主なテクニックを習得することで、動画生成のあらゆる側面をきめ細かく制御できるようになります。
映像の言語
プロンプトの [映像] 要素は、トーンと感情を伝えるための最も強力なツールです。
-
カメラの動き: ドリーショット、トラッキング ショット、クレーン ショット、空撮、スローパン、主観ショット。
クレーンショットの例
プロンプト: クレーンショット。一人のハイカーの低い位置からの撮影で始まり、視点はずっと上に動いて、日の出時に巨大な霧の峡谷の端に立っていることがわかる。壮大なファンタジー スタイルで、畏敬の念を抱かせるような、柔らかい朝の光で満たされる。
-
構図: ワイドショット、クローズアップ、エクストリーム クローズアップ、ローアングル、ツーショット。
- レンズとフォーカス: 浅い被写界深度、広角レンズ、ソフト フォーカス、マクロレンズ、ディープ フォーカス。

浅い被写界深度の例
プロンプト: 非常に浅い被写界深度でのクローズアップ。若い女性がバスの窓から、行きすぎる街の灯りを見ている。窓ガラスには女性の姿がかすかに映っている。窓の外は夜の嵐。メランコリックな雰囲気をクールな青いトーンで演出する。ムーディーで映画のような動画。

サウンドステージの演出
Veo 3.1 は、テキストによる指示に基づいて完全なサウンドトラックを生成します。
-
会話: 具体的な会話には引用符を使用します(例: 女性が「もう行かなくちゃ」と言います)。
-
効果音(SFX): 音を明確に説明します(例: SFX: 遠くで雷が鳴る)。
-
周囲の音: バックグラウンドのサウンドスケープを明示します(例: 周囲の音: 宇宙船ブリッジの静かなハム音)。
ネガティブ プロンプトを使いこなす
出力を絞り込むには、除外したいものを記述します。たとえば、「人工構造物なし」ではなく、「建物や道路のない荒涼とした風景」と指定します。
Gemini によるプロンプトの強化
さらに詳細を追加する必要がある場合は、Gemini を使用して簡単なプロンプトを分析し、より説明的、映画的な言葉でプロンプトを充実させます。
高度なクリエイティブ ワークフロー
詳細なプロンプトを 1 つ使用するのも効果的ですが、複数のステップを使ったワークフローでは、クリエイティブ プロセスを扱いやすい段階に分割することで、比類のない制御を得られます。以下のワークフローは、Veo 3.1 の新機能と Gemini 2.5 Flash Image(Nano Banana)を組み合わせて複雑なビジョンを実行する方法を示しています。
ワークフロー 1: 「最初と最後のフレーム」を使用した動的なトランジション
この手法を使用すると、2 つの異なる視点の間で、具体的で制御の効いたされたカメラの動きや場面転換を作成できます。
ステップ 1: 最初のフレームを作成する: Gemini 2.5 Flash Image を使用して最初のショットを生成します。
Gemini 2.5 Flash Image のプロンプト:
「古い型のマイクに向かって情熱的に歌う女性ポップスターの上半身のショット。女性は暗いステージに立っており、正面からドラマチックなスポットライト 1 台で照明されています。目を閉じて、感情的な瞬間を捉えています。フォトリアリスティックで映画的な映像。」


ステップ 2: 最後のフレームを作成する: Gemini 2.5 Flash Image で、別の視点からのアングルなど、補完的な 2 枚目の画像を生成します。
Gemini 2.5 Flash Image のプロンプト:
「ステージ上の歌手の後ろから、大勢の観客が歓声を上げている様子を捉えた視点のショット。ステージのライトが明るく、レンズフレアが発生している。画面前面には、歌手の後頭部と肩が見えます。観客は光とシルエットの海のようです。活気のある雰囲気です。」


ステップ 3: Veo で動画にする。最初と最後のフレーム機能を使用して、両方の画像を Veo に入力します。プロンプトで、トランジションと必要なオーディオについて記述します。
Veo 3.1 のプロンプト: 「カメラは、歌手を正面から捉えた映像から始まり、歌手の周りを円を描くようにスムーズに 180 度回転して、ステージ上の歌手を後ろから捉えた映像で終わる。「あなたに瞳を見つられると、何百万もの星が見えるみたい」と歌っています。

ワークフロー 2: 「動画素材」で会話シーンを作成する
このワークフローは、Veo 3.1 の会話作成機能を活用して、キャラクターが一貫性を持って会話をするマルチショット シーンを作成するのに最適です。
ステップ 1: 「素材」を生成する: Gemini 2.5 Flash Image を使用して、キャラクターと設定した場面の参照画像を作成します。


ステップ 2: シーンを構成する: 関連する参照画像を使用して、動画素材機能を使用します。
プロンプト「探偵、女性、オフィスでの場面設定の画像を使用して、探偵がデスクの後ろにいる上半身のショットを作成してください。探偵は女性を見上げ、疲れた声で「この街の数ある事務所の中で、よりによって私の事務所に足を踏み入れるとは」と言います。

プロンプト: 「探偵、女性、オフィスでの場面設定の画像を使用して、女性に焦点を当てたショットを作成してください。彼女は少し不思議な笑みを浮かべながら、「あなたは高く推薦されているんですよ」と答えます。

ワークフロー 3: タイムスタンプ プロンプト
このワークフローでは、1 回の生成内で、時間配分を映画のように正確に取って、完全なマルチショット シーケンスを演出できます。時間指定されたセグメントにアクションを割り当てることで、複数の別々のショットで構成するフルシーンを効率的に作成し、時間をかけずに一貫した映像を得られます。
プロンプトの例:
[00:00-00:02] 革製のショルダー バッグをかけて、茶色のボサボサの髪をポニーテールにした若い女性探検家の上半身を後ろから見た画像で、ジャングルの中で大きな木のつるをかき分けると隠れた道が見つかる。
[00:02-00:04] 今度は探検家を正面から捉え、苔むした古代の遺跡を背景に、そばかすだらけの顔が畏敬の念を抱いた表情でそれを見つめている。効果音: 茂った葉のざわめき、珍しい鳥の鳴き声が遠くで聞こえる。
[00:04-00:06] 探検家が空き地に足を踏み入れ、崩れかけた石壁の細かな彫刻に手を触れる様子を追うトラッキング ショット。感情: 驚きと畏敬の念。
[00:06-00:08] 広角のハイアングル クレーンショット。ジャングルに半分飲み込まれた、広大な忘れ去られた寺院跡の中央に、探検家が一人小さく立っている。効果音: 穏やかなオーケストラ曲が徐々に盛り上がりながら演奏される。
Vertex AI で Veo 3.1 を使用して作成を開始
これで、Veo に正確に指示を出すためのフレームワークを得られたと思います。これらの手法を習得する最善の方法は、実際のユースケースに適用することです。
デベロッパーや企業ユーザー向けに、さらに向上した Veo 3.1 モデルが API を介して Vertex AI でプレビュー版として提供されています。これにより、高度なプロンプト作成のワークフローを試して、強力で、思い通りに演出された動画生成機能をご自身のアプリケーションに直接組み込むことができます。
お客様向けのプロンプト ガイダンスの作成には、Anish Nangia、Sabareesh Chinta、Wafae Bakkali が協力してくれました。
-Khulan Davaajav、グローバル AI コンテンツ マネージャー
-Hussain Chinoy、生成 AI テクニカル ソリューション マネージャー



