次世代の生成 AI メディアモデルで Vertex AI を強化

Katie Nguyen
Developer Relations Engineer
※この投稿は米国時間 2025 年 5 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、Vertex AI の次世代生成 AI メディアモデルとして、Imagen 4、Veo 3、Lyria 2 がリリースされました。
Google の画像生成モデルである Imagen 3 を使用して、驚くほどリアルな画像をすでに生成しているお客様もいらっしゃいます。こうした画像は Veo 2 を使用して、高品質の動画やアセットに変換されています。そして、このような素晴らしい動画に、Google の高度な AI 音楽生成モデルである Lyria でプロ品質の音声を加え、命を吹き込んでいるお客様もいらっしゃいます。
マーケティングやメディアなどの分野において、生成 AI メディアが急速に普及し、ストーリーテリングがかつてないほど簡単になりました。ユーザーはキャンペーンのアセットをより迅速に作成し、画期的なクリエイティブ コンテンツを構築しています。各モデルと、今すぐ利用を開始する方法を見ていきましょう。
Imagen 4: さらに質の高い画像生成
今回、Vertex AI のテキスト画像変換生成機能である Imagen 4 の公開プレビュー版をご紹介します。Google の最高品質の画像生成モデルである Imagen 4 で可能なことは、以下のとおりです。
-
卓越したテキスト レンダリングとプロンプトへの準拠
-
すべてのスタイルでの全体的な画質の向上
- 世界中のクリエイターによる利用を可能にする、プロンプトの多言語対応


プロンプト: 1960 年代の典型的なキッチンに、夕方頃に差し込んでくる暖かく柔らかな日差しを捉えた、心がほっとするようなクローズアップ写真。フォーカル ポイントは、斑点模様の Formica 製調理台に目を引くように置かれている、ヴィンテージ デザインのかわいい薄力粉パッケージ。そのパッケージ自体が純粋ななつかしさを感じさせる。それはおそらく、暖かいクリーム色で、少しざらついた厚みのある紙に、クラシックな赤と青のシンプルな太字の書体(親しみやすい Serif や Script)で「ALL-PURPOSE FLOUR」と書かれており、図案化された小麦の束や、陽気なパン職人のような楽しいイラストが描かれているからだろう。パッケージの下部には、「NET WT 5 LBS (80 OZ) 2.27kg」と小さめの太字で印刷されている。紙袋のやや柔らかい縁、ヴィンテージ風の印刷の質感、目を引く「ALL-PURPOSE FLOUR」の文字など、パッケージの細部にピントが合っている。その周囲には、1960 年代のキッチンを思わせる細かい要素が散りばめられている。調理台のクロームの端が柔らかく輝き、パステル イエローのセラミック タイルの汚れ止め板がぼんやりと見え、ヴィンテージの金属製キャニスターの一部がピントを外した状態で映っている。被写界深度が浅いため、美しくデザインされたパッケージに視線が固定され、温かみ、本物らしさ、ノスタルジックな魅力にあふれた美しさを生み出している。


プロンプト: この 4 コマ漫画では、古典的な 8 ビット ビデオゲームを彷彿とさせる、意図的にピクセル化されたアートスタイルを使用している。シンプルな形と、緑、青、茶色、そして恐竜の象徴的なグレーと黒を主体に、限られた色から構成される明るいカラーパレットが特徴的。舞台は、デザイン化されたピクセルのビーチ。1 コマ目では、Google Chrome でお馴染みのティラノサウルスが、ピクセル化された特徴的な姿で登場。小さなピクセルのサングラスをかけ、ブロック状の黄色い太陽を浴びながら、ピクセル化されたビーチタオルの上に寝そべってくつろいでいる。ピクセル化された青い空を背景に、ピクセルのヤシの木がゆらゆらと揺れている。吹き出しに、ピクセル化されたフォントで「Even error messages need a vacation.(エラー メッセージにも休暇が必要)」と表示されている。2 コマ目は、ピクセルの砂の城を作ろうとしているティラノサウルスのクローズアップ。小さなピクセルの腕で、茶色いピクセルの山をぎこちなく軽くたたきながら、集中した様子。周りの砂の上には、ピクセル化された小さな貝殻が点在している。3 コマ目は、障害物を回避するゲームのように、ビーチの近くに植えられた複数のピクセル化されたサボテンを恐竜が楽しそうに飛び越えている様子が描かれている。ジャンプごとに、その上に「Boing! Boing!(ピョン!ピョン!)」という効果音が、ピクセル化された小さな文字で表示されている。それを横で見ているピクセル化されたカニが、ピクセル化されたハサミを振っている。最後のコマでは、ティラノサウルスが、ブロック状の青いピクセルの水にあおむけでゆったりと浮かんでいる様子が描かれている。サングラスをかけたまま、満足げな表情を浮かべている。その上にある小さな考え中の吹き出しに、リラックスしている様子を表すピクセル化された「Zzz...」という文字が入っている。


プロンプト: 助手席に座っている、鮮やかな赤毛の若い乗客の横顔が、運転席から映画のようにはっきりと撮影されている。その女性は前方に視線をやり、横窓から見える埃っぽく寂しいハイウェイを見つめている。窓の外には、乾燥した広大な大地と、はるか遠くにあるであろう山々がかすんで見える。彼女は腕を窓の下枠またはハンドルに乗せている。彼女の横には、トラックの古くなった内装の一部(ドアパネル、またはほころびたシート生地)が見える。夕暮れ時のような日差しによって、彼女の顔とトラックの車内に長い影と暖かみのあるハイライトが伸びている。このアングルが、広大で何もない風景の中で、彼女の存在と物思いにふける様子を際立たせている。
Vertex AI で Imagen 4 の公開プレビュー版の使用を開始するには、Media Studio を利用するか、Google Gen AI SDK for Python を使用する以下のコードサンプルを実行します。
Veo 3: オーディオや音声でさらに高品質な動画を生成
Veo 3 は、Google DeepMind による最新の動画生成モデルです。Veo 3 では、以下を含む動画を生成できます。
-
テキストや画像のプロンプトから生成する高い品質の動画
-
会話やボイスオーバーなどの音声
-
音楽や効果音などのオーディオ
生産性やクリエイティブ面での Veo のメリットに関する、お客様の声をご紹介します。
デジタル決済のリーダー企業である Klarna は、Vertex AI の Veo と Imagen を活用してコンテンツ制作の効率を高めています。B ロールから YouTube バンパー広告にわたり、同社は制作のタイムラインを大幅に短縮しています。
「Klarna では、マーケティング活動においてイノベーションの限界をさらに広げる方法を常に模索しています。Veo は、クリエイティブなワークフローに革新をもたらしました。Veo と Imagen のおかげで、かつて時間がかかっていた制作プロセスを、迅速かつ効率的に遂行できるようになったため、コンテンツ制作の規模を迅速に拡大できるようになりました。これらのツールによって当社のチームは、魅力的な B ロールの制作、目を引く YouTube バンパー広告の制作、ダイナミックなソーシャル メディア アニメーションの開発などを、より俊敏かつクリエイティブに実施できるようになりました。結果がすべてを物語っており、エンゲージメントとコンテンツのパフォーマンスが向上しました。Google Cloud を活用することで、私たちは未来の商取引の基盤を築き、ブランドに命を吹き込む方法を革新しているのです。」- Klarna、最高マーケティング責任者、David Sandström 氏
The Brandtech Group 傘下の有名なデジタル マーケティング企業である Jellyfish は、同社の高パフォーマンス AI マーケティング プラットフォームである Pencil に Veo を統合し、日本航空と提携して、AI 生成による機内エンターテイメントを提供しています。

「Pencil に Veo 2 を追加したことで、高度な AI でマーケティング担当者を支援するという当社の取り組みが強化され、よりスマートかつ迅速なだけでなく、より大胆で芸術的なキャンペーンを制作できるようになりました。試験運用では、平均 50% の費用削減と市場展開までの時間短縮という驚くべき結果が得られました。コントロールと品質がこのように劇的に変化したことで、それまで実現不可能だったアイデアを、わずか数分で実際のマーケティング コンテンツに取り入れられるようになりました。旅行業界への生成 AI 導入を、日本航空が真っ先に実施しましたが、他のブランドがその後に続くことを楽しみにしています。」- Brandtech、創設者 / CEO、David Jones 氏
Kraft Heinz では、チームが Tastemaker プラットフォームから Imagen と Veo にアクセスできるようになったおかげで、クリエイティブやキャンペーンの開発プロセスが大幅に加速しました。
「Tastemaker プラットフォームに Vertex AI の Veo と Imagen を組み込んだことで、Kraft Heinz はクリエイティブ ワークフローでかつてないほどのスピードと効率性を実現しました。以前は 8 週間かかっていた作業が今では 8 時間で済むようになり、大幅な費用削減につながっています。」– デジタル エクスペリエンスおよび成長担当責任者、Justin Thomas 氏
デジタル クリエイティブ アセットとテンプレートの世界的リーダーである Envato は、Veo 2 を使用して、新しくリリースされた動画生成機能 VideoGen を開発しました。この機能により、クリエイティブ プロフェッショナルは、テキストや画像をハイパーリアルで映画のような動画コンテンツに変換できるようになりました。
「私たちは、これまで数多くの優れた動画モデルを試してきましたが、Veo 2 は、さまざまなテキストと画像の入力に対して、速度と品質の面で最高の結果をもたらしました。リリースから数日間で、数万人にのぼる Envato 登録者がすでに VideoGen にアクセスし、生成された動画の 60% 近くがダウンロードされ、クリエイティブ プロジェクトで使用されました。3 月以降、VideoGen の利用は前月比 100% 以上のペースで増加しています。Google Cloud と連携し、Veo によって Envato の VideoGen 機能を実現できたことを嬉しく思っています。」- Envato、AI プロダクト責任者、Aaron Rutley 氏
使用例を見る: Veo 3 は、次の例に示すように、複雑なプロンプトの細部まで対応できます。

プロンプト: 歴史的な冒険をテーマにした中距離ショット: 散らかっている書斎で、暖かいランプの光が、大きなテーブルに広げられた古い地図をじっくり見ている地図製作者を照らしている。地図製作者: 「According to this old sea chart, the lost island isn't myth! We must prepare an expedition immediately!(この古い海図によると、失われた島は神話ではありません。すぐに探検の準備をしなくては!)」

プロンプト: 低いアングルで撮影された映像には、薄紫色の壁と灰色の床の部屋から色鮮やかな景色へと開かれた、薄紫色のドアが映っている。緑豊かな草や野花が、戸口から室内の床に広がっており、2 つの空間の不思議なつながりを作り出している。ドアの向こうには、野の花が点在するなだらかな緑の丘が、明るく澄んだ空に向かって広がっている。屋外の景色では、手前に 1 本の木が目立つように立っており、木の葉が映像に奥行きを与えている。太陽光と自然の要素が、シンプルな室内空間と対照をなしており、不思議な感覚と非日常感を演出している。
Veo 3 は Vertex AI で限定公開プレビュー版として提供されており、今後数週間以内により多くの皆様にご利用いただけるようになります。早期アクセスをご希望の場合は、こちらのフォームにご記入ください。
Lyria 2: 音楽生成でクリエイティブ コントロールを強化
Google Cloud Next 2025 で、テキストから音楽を生成する Google のモデルである、Vertex AI の Lyria が発表されました。そしてこのたび、Vertex AI の Lyria 2 の一般提供が開始しました。Google の最新の音楽生成モデルである Lyria 2 では、さまざまなスタイルで高忠実度の音楽を生成できます。新たなクリエイティブなパートナーとして Lyria 2 を活用すると、以下のことが可能です。
-
テキスト プロンプトから高音質のオーディオ コンテンツを生成
-
楽器、BPM、その他の特性をよりクリエイティブに制御
Lyria 2 でコンテンツの作成を開始するには、Vertex AI の Media Studio にアクセスします。そこから、テキスト プロンプトで音楽を生成したり、Vertex AI を介してモデル API にアクセスしたりできます。参考として、以下の音楽クリップとプロンプトをご確認ください。

プロンプト: アップビートでリズミカル、そしてサイケデリックなエッジのあるペルー クンビア、ロサンゼルス、ラテン音楽フェスティバルでのライブ パフォーマンス、エレキギター、ベース、そしてティンバレスが際立つパーカッション セクションを散りばめ、パワフルで踊れる雰囲気を演出。活気に満ちてエネルギッシュ。

プロンプト: オーケストラによる壮大な映画音楽、極めてクリアなスタジオ録音、ロンドン、100 人編成のオーケストラ、荘厳で深遠。高揚感のあるメロディー、ドラマチックなハーモニーの変化、力強いパーカッション要素を融合し、フレンチホルン、ストリングス、ティンパニなどの楽器を組み合わせ、緻密なオーケストレーション、ダイナミックな音域、感情的な深みを特徴とするテーマ性のあるアプローチが、映画的な荘厳な雰囲気を醸し出している。
Lyria 2 について、これまでにお客様から寄せられた声をご紹介します。
Captions は AI を活用した動画制作ツールで、スタジオ級の音声付き動画をすばやく簡単に作成できます。Lyria 2 が Mirage Edit 機能に統合されたことで、ユーザーは、カスタマイズした音声付き動画を短時間で完成できるようになりました。
「Captions の Mirage Edit 機能を使用すると、登録者はプロンプトを入力すれば、画像、B ロール クリップ、ナレーション、トランジションを含む完全に編集された、AI を活用した音声付き動画を生成できます。今回は、Google の Lyria 2 を活用したアダプティブ ミュージックという重要な要素が追加されました。Lyria では、1 つのプロンプトで、台本、テンポ、感情のすべての転換点に合わせて音楽を作成できます。そのためユーザーは、Captions のサイトを離れたり、ストック ライブラリをかき分けて探したりしなくても、映画のような短編動画を公開できるのです。」- Captions.ai、共同創設者兼 COO、Dwight Churchill 氏
Dashtoon や DashReels などのデジタル コンテンツ プラットフォームを所有する Dashverse は、Google の Lyria 2 を Vertex AI で活用して、次世代の AI ネイティブ クリエイターに高度な音楽生成機能を提供しています。このインテグレーションにより、ユーザーは DashReels などのプラットフォームで、コンテンツのストーリーとテンポに合わせてシームレスに変化する、ダイナミックで感情に訴えるサウンドトラックを作成できるようになりました。
「Dashverse は、Dashtoon で漫画を作っているクリエイターであっても、DashReels で短編ドラマを作っているクリエイターであっても、一般クリエイターの皆様を支援することを常に信条としてきました。DashReels でダイナミックかつ感情に訴えるストーリーテリングを実現するには、同じような表現力と応答性を備えた音楽エンジンが必要だったのです。Vertex AI の Lyria 2 がまさに最適でした。おかげで当社のユーザーは、感情、シーン、テンポに合わせて音楽を調整するという、スタジオ級の制御ができるようになり、オーバーヘッドもありません。これは単なるサウンドトラック生成ツールではなく、ストーリーテリングを強化するツールなのです。次世代の AI ネイティブ クリエイターが、この機能でどんな可能性を広げていくのか、非常に楽しみです。」- Dashverse、最高技術責任者、Soumyadeep Mukherjee 氏
安全に作成し、責任を持って共有する
AI 生成コンテンツのセキュリティと安全性は非常に重要です。こうした理由で、これらのモデルは安全保護対策を組み込んで設計されているため、ユーザーの皆様はクリエイティブな作業に集中できます。Veo 3、Imagen 4、Lyria 2 はすべて、Google DeepMind との連携により、安全性を設計の基本原則として構築されています。
透かし: Veo、Imagen、Lyria で生成されたすべての作品には、デフォルトで SynthID が使用されます。これは、生成されたコンテンツに目に見えない透かしを直接埋め込むテクノロジーです。この透かしで、AI 生成のメディアを識別できるため、透明性を確保できます。
安全フィルタ: すべての生成 AI メディアモデルの入力プロンプトと出力コンテンツはいずれも、安全フィルタのリストと照合して評価されます。コンテンツのフィルタの強度を構成できるため、アセットのブランド価値を確保できます。視覚的な出力データでは、人物生成も制御できます。
使ってみる
これらの新しいモデルの詳細については、以下のリソースをご覧ください。
-デベロッパーリレーションズ エンジニア、Katie Nguyen