Vertex AI が動画、画像、音声、音楽にわたる生成メディアモデルを備えた唯一のプラットフォームに

Warren Barkley
Senior Director, Product Management, Google Cloud
※この投稿は米国時間 2025 年 4 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。
Google は生成メディアへの投資を続けています。その取り組みの中で今回、テキストから音楽を生成する Google モデルの Lyria を、許可リスト付きのプレビュー版として Vertex AI に追加しました。音楽が追加されたことで、Vertex AI は動画、画像、音声、音楽というすべてのモダリティにわたる生成メディアモデルを備えた唯一のプラットフォームになりました。つまり、テキスト プロンプトから画像、音楽と音声を含む完全な動画アセットまで、本番環境に対応したアセットを作成できます。
Lyria に加え、他の生成メディアモデルを改善するための新機能とアップデートもリリースしています。
-
Google の高度な動画生成モデルである Veo 2 の新しい編集機能とカメラ制御機能が、許可リスト付きのプレビュー版として利用可能になりました。この機能により、お客様は動画コンテンツを正確に調整して再利用できます。動画をクリエイティブにコントロールできるため、チームの反復作業を迅速化しながら、質の高いコンテンツ制作が可能になるとともに、ポストプロダクションにかかる時間と費用を削減できます。
-
Chirp 3 は、Google の画期的な音声生成および音声理解モデルです。これに、わずか 10 秒の音声入力でカスタム音声を作成できる新機能、「インスタント カスタム音声」が追加されました。また、既存の録音に AI を活用したナレーションを組み合わせる、話者を区別できる音声文字変換機能を追加する、といったことも可能です。どちらの機能も、許可リスト付きのプレビュー版として利用できます。
-
Imagen 3 は、Google が提供する最高品質のテキスト画像変換モデルです。このモデルの画像生成機能と、画像の欠損部分や損傷部分を再構築するインペイント機能が改善されました。最新のアップデートでは、オブジェクト除去の品質が大きく向上し、より自然でシームレスな編集エクスペリエンスを提供できるようになりました。
Google の AI に関する原則に沿って、Vertex AI での Lyria、Veo 2、Chirp 3、Imagen 3 の開発とデプロイでは、SynthID による電子透かし、安全フィルタ、データ ガバナンスなどの予防策を組み込むことで安全性と責任を優先しています。また、業界初の補償アプローチにより、Google のさまざまなプロダクトで生成されたコンテンツを、著作権を含む第三者の IP に関する申し立てに対して Google が補償することを前提として利用できます。
Lyria: テキストから音楽を生成するモデルが Vertex AI で利用可能に
Lyria は、微妙なニュアンスを捉え、幅広い音楽ジャンルにわたって楽曲の細部を繊細に再現する高忠実度オーディオを生成します。Vertex AI の Lyria によって、企業は次のような利点が得られます。
-
ブランド エクスペリエンスの向上: マーケティング キャンペーン、商品の発売、没入型の店内エクスペリエンス用に、ブランドの独自性を反映したサウンド トラックをすばやく作成できます。Lyria を使用すると、ターゲット オーディエンスの心に深く響くソニック ブランディングを創出できます。感情的なつながりを演出し、ブランド想起率を高めることが可能です。
-
コンテンツ制作の効率化: 動画制作、ポッドキャスト、デジタル コンテンツの際に、最適な音楽を著作権フリーの素材から探すとなると、時間も費用もかかります。Lyria を使用すれば、そのようなハードルは生じません。コンテンツのムード、テンポ、ストーリーにぴったり合ったカスタム音楽トラックを数分で生成できます。それによって制作ワークフローが加速し、ライセンス費用も削減されます。
たとえば次のようにさまざまな指定ができます。
躍動感のあるビバップの曲を作る。目まぐるしいサックスとトランペットのソロを前面に出し、複雑なフレーズを高速で交換させる。ピアノは打楽器のようにコードを奏で、ウォーキング ベースと激しいドラムで熱狂的なエネルギーを演出する。音色は刺激的で激しく。煙が立ち込める深夜のジャズクラブのムードの中で、高度なテクニックと即興演奏を強調する。思わず踊り出したくなる雰囲気を作り出す。

新しい強力な編集機能で Veo 2 を拡張
Google は、Veo 2 で動画の作成、編集、ビジュアル エフェクトの追加を行う際に役立つ、強力な機能セットのプレビュー版をリリースしました。これらの機能により、チームは進化するニーズに合わせて動画コンテンツを編集し、再利用できるようになります。Vertex AI の Veo は、生成ツールから包括的な動画作成および編集プラットフォームへと変貌します。これにより、次のことを行えるようになりました。
- 既存の映像を調整して、より高品質に
-
インペイント: 手動でレタッチしなくても、プロが手がけたようなきれいな編集が可能です。動画から不要な背景画像、ロゴ、邪魔なものを除去できます。フレームごとにスムーズかつ完全に消去されるため、まるで最初からなかったかのように見せることができます。


手作業によるレタッチなしで、プロ並みのきれいな編集が可能
-
- アウトペイント: 既存の動画映像のフレームを拡張し、従来の動画をウェブやモバイル プラットフォーム向けに最適化された形式に変換します。それにより、さまざまな画面サイズやアスペクト比に合わせてコンテンツを簡単に調整できます。たとえばソーシャル メディアのショート動画用に、横向きの動画を縦向きに変換することも可能です。


フレームを拡張したアウトペイント動画
- 高度な映画制作手法を導入: ショットの構図、カメラアングル、ペース配分などの新機能が追加されました。複雑なプロンプトや専門知識がなくても、高度な映画制作手法を簡単に使用できます。たとえば、カメラのプリセットを使用してカメラをさまざまな方向に動かす、タイムラプス エフェクトを作成する、ドローン風のショットを生成するなどが可能になります。

- 2 つの既存のアセットをつなげて(補間)、まとまりのある動画を作成: 補間機能を使用して動画シーケンスの開始と終了を定義すれば、Veo がシームレスにつなぎ目のフレームを生成します。これにより、スムーズな推移と視覚的な連続性を維持することができ、洗練されたプロフェッショナルな作品が完成します。


補間によりフレーム間のスムーズな推移が可能に
Chirp 3: インスタント カスタム音声と音声文字変換のアップデート
先月、Google は画期的な音声理解および生成モデルである Chirp 3 を Vertex AI に統合しました。Chirp 3 の新しい HD 音声機能は、8 種類の話者オプションで 35 以上の言語に対応した自然でリアルな音声を提供します。
今回、2 つの新機能を発表します。
-
Chirp 3: インスタント カスタム音声が許可リストを通じて一般提供されるようになりました。10 秒の音声入力からリアルなカスタム音声を生成できます。これにより、企業は一貫したブランド アイデンティティを維持しながら、コールセンターのパーソナライズ、アクセスしやすいコンテンツの開発、独自のブランドボイスの確立が可能になります。責任ある使用を保証するため、インスタント カスタム音声には安全機能が組み込まれています。また、許可リストのプロセスでは音声使用権限の適切さを厳格に確認しています。
-
Chirp 3: ダイアライゼーション付き音声文字変換が、許可リスト付きのプレビュー版で利用可能になりました。この高度な機能は、複数の話者の録音から個々の話者を正確に分離して識別し、会議の要約、ポッドキャストの分析、複数者間での通話の録音などの用途で、音声文字変換の明瞭性とユーザビリティを大幅に向上させます。
Imagen 3: Imagen の品質と編集機能の改善
昨年、Google は最高品質のテキスト画像変換モデルである Imagen 3 に大幅な改良を加え、以前のモデルよりも鮮明なディテールと豊かな照明効果を備え、邪魔なアーティファクトの少ない画像を生成できるようになりました。

Imagen 3 の編集は、あらゆる画像を洗練されたものに仕上げ、調整するためのパワフルでユーザー フレンドリーな機能です。画像の欠損部分や破損部分を再構築する Imagen 3 のインペイント機能が大幅に改善されました。最新のアップデートでは、オブジェクト除去の品質が大きく向上し、より自然でシームレスな編集エクスペリエンスを提供できるようになりました。こちらの例では、不要な物体や汚れ、邪魔なものを写真からすばやく取り除く様子を確認できます。


不要な物体の除去など、画像を簡単に調整
エンタープライズ レベルの安全性とセキュリティが確保された構築
安全で安心かつ責任ある方法で AI を設計、開発することが何よりも重要です。Google の AI に関する原則に沿って、Vertex AI の Lyria、Veo 2、Chirp 3、Imagen 3 は安全性を最優先に構築されています。
-
電子透かし: Google DeepMind の SynthID は、Imagen、Veo、Lyria が生成するすべての画像、動画、音声フレームに目に見えない透かしを埋め込み、誤情報や誤認の懸念を軽減します。
-
安全フィルタ: Veo、Imagen、Lyria、Chirp にはすべて、有害なコンテンツの生成を防ぎ、Google の責任ある AI の原則に準拠するための安全対策が組み込まれています。Google は、モデルの安全性とプライバシー保護を向上させる新しい手法への投資を今後も継続していきます。
-
データ ガバナンス: Google Cloud に組み込まれているデータ ガバナンスとプライバシー管理に則り、モデルのトレーニングにお客様のデータを使用することはありません。お客様のデータの処理は、お客様の指示に従ってのみ行われます。
-
著作権補償: 対象となる生成 AI サービスに対する補償により、著作権に関する懸念を払拭できます。
Vertex AI の生成メディアモデルで価値を実現しているお客様
生成 AI はもはや未来的なコンセプトではなく、現実のビジネス成果を導く強力なツールです。WPP、Agoda、Bending Spoons、Monks.Flow、The Brandtech Group、Bloomberg Connects などの企業が、Google の生成メディアモデルを本番環境で利用しています。大手企業が Google Cloud の生成メディア機能をどのように活用しているか、具体的な例を見ていきましょう。
Goodby, Silverstein & Partners: 1937 年、Salvador Dalí は「馬の背のサラダに乗ったキリン」という映画的なビジョンを思い描きました。しかしあまりにも非現実的で時代を先取りしすぎていたため、形にすることは不可能でした。1 世紀近くの間、そのビジョンはスケッチとメモの中にしか残されていませんでした。しかし今、Goodby Silverstein & Partners と The Dalí Museum が、そのビジョンを目に見える形にしました。Veo 2 がシュールレアリスムを映画に変換するツールとなったのです。「ダリは、自分が生きているうちは存在し得ないような、超現実的で既成概念に縛られない映画を想像していました。今回、Veo 2 と Imagen 3 の驚くべき機能のおかげで、私たちはそのビジョンをレプリカとしてではなく、本当の形で目覚めさせることに成功しました。これまで手掛けてきた中で最もクリエイティブで刺激的な作品の一つです。」– Goodby Silverstein &Partners、共同会長、Jeff Goodby 氏

L'Oreal Groupe:
L'Oreal Groupe は Veo と Imagen を活用して、高品質の動画アセットと画像アセットの制作をエンドツーエンドに変革しています。それにより、グローバルなマーケティング イニシアチブ全体でよりクリエイティブなデータ探索を促進し、信頼性の高い AI への取り組みを維持しています。
「Veo と Imagen を当社のクリエイティブ プロセスに統合することで、マーケティング コンテンツの作成をスピードアップするだけでなく、クリエイティビティへのアプローチ方法を変えています。こうしたモデルは強力なクリエイティブ パートナーとして機能し、当社のチームが新しいアイデアを試して、市場に対応できるようにしてくれます。当社は信頼性の高い AI の価値を維持しながら、さらに 20 の国と言語にわたって質の高い動画と画像の制作を拡大しています。」– L’Oreal Groupe、AI センター イネーブルメント担当マネージャー、Thomas Ménard 氏
Kraft Heinz:
Kraft Heinz の Tastemaker プラットフォームは、チームが Veo 2 と Imagen 3 にアクセスできるよう支援し、クリエイティブやキャンペーンの開発プロセスを大幅に加速させています。
「Tastemaker プラットフォームの一部として Vertex AI の Veo 2 を使用することで、Kraft Heinz はクリエイティブ ワークフローでかつてないほどのスピードと効率性を実現しました。以前は 8 週間かかっていた作業が今では 8 時間で済むようになり、大幅な費用削減につながっています。当社のブランド インテリジェンスについて徹底してトレーニングされた Google Cloud AI をプラットフォームに実装することで、イノベーション チームとクリエイティブ チームはコンテンツのプロトタイピング、テスト、デプロイを迅速に行うことができ、私たちの象徴的なブランドに命を吹き込む方法を大きく変えています。」– デジタル エクスペリエンスおよび成長担当責任者、Justin Thomas 氏
