Google Cloud の生成メディアモデルの勢いを活かす

Michael Gerstenhaber
VP of Product Management, Vertex AI
※この投稿は米国時間 2025 年 10 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
Gemini 2.5 Flash Image で利用できる最新の画像編集モデルである Nano Banana の機能が話題になっていることを嬉しく思います。このような変革的なワークフローについて理解することで、その理由が簡単にわかります。
この素晴らしい反応から明らかなように、企業は魅力、一貫性、セキュリティを損なうことなく、これまで以上に多くのフォーマットやチャネルで高品質のメディアを迅速に制作、調整できるようになりました。
そこで、Google は生成メディアモデル スイート全体にわたる大幅なアップデートを発表しました。Gemini 2.5 Flash Image(一般提供開始)、Veo、Imagen、Gemini 2.5 Text-To-Speech を Vertex AI でご利用いただけるようになります。これらのアップデートにより、視覚、音声、動きという最も重要なすべてのフォーマットで、より迅速かつより詳細に制御しながら制作できるようになります。次は、これについて見ていきましょう。
Gemini 2.5 Flash Image が Vertex AI で一般提供開始(GA)
このたび、Gemini 2.5 Flash Image の一般提供が開始されたことをお知らせいたします。この Google の最先端の画像生成および編集モデルは本番環境に対応しており、Google Cloud のエンタープライズ グレードのインフラストラクチャとセキュリティによって支えられています。さらに、複数のアスペクト比で画像を作成できるようになり、バッチ処理もサポートされるようになりました。
Gemini 2.5 Flash Image はすでに広く採用されています。Gemini 2.5 Flash Image の創造性の限界を押し広げている企業の例を以下にご紹介します。

「Gemini 2.5 Flash Image のような高品質の AI ツールのおかげで、文字どおり、もう制限はありません。その結果、チームの創造性はかつてないほど高まりました。アイデアを出し合い、それをより迅速に可視化して、キャンペーンを数週間ではなく数日で開始できるようになりました。当社の中核をなす使命は、クリエイターや企業に最先端の AI ツールを提供することです。Gemini 2.5 Flash Image を提供することで、その使命を果たすことができます。クリエイターにとって、今ほどエキサイティングな時代はないでしょう」- Artlist.io、CMO、Shahar Aizenberg 氏


「Gemini 2.5 Flash Image により、Mercado Libre のフォトスタジオにとって可能なことが再定義されました。このモデルの創造性、美的品質、正確な指示の遵守により、商品リスティングが向上し、新たな可能性が開かれました。今の限界は、想像力だけです」- Mercado Libre、ソフトウェア開発マネージャー、Franco Seia 氏
Veo: より細かく制御できる、新しいフォーマットでの制作を実現
ネイティブの音声と会話に対応した最新の動画生成モデルである Veo 3 は、これまでにない制御でストーリーを生き生きと表現したいクリエイターの間で急速に採用が進んでいます。Google では皆様からのフィードバックに耳を傾け、Vertex AI の Veo 3 をさらに強化する新機能を発表しました。
- ソーシャル メディア用の縦向きフォーマットでの出力: 縦向き動画を作成したいというご要望にお応えして、Veo 3 と Veo 3 Fast で 9:16 のアスペクト比がサポートされるようになりました。クリエイターは、ソーシャル メディア プラットフォームの縦向きに最適化された、より大きく没入感のあるビジュアルを制作できます。不自然なトリミングはもう不要
- ストーリーの流れとタイミングをコントロール: 4 秒、6 秒、8 秒の再生時間オプションを使用すると、トランジションやカットシーンに合わせて動画コンテンツをシームレスに調整できるため、ニーズに合わせてより柔軟なナラティブを作成できます。
お客様はすでに Veo を活用してクリエイティブ ワークフローを変革し、新しい強力な方法でオーディエンスとつながっています。

「Palo Alto Networks の「Be a Genius. Deploy Bravely」キャンペーンでは、スピード、創造性、費用のいずれかを妥協する必要がなくなったことが証明されました。Gemini と Veo 3 なら、これらすべてが手に入ります。Google もお客様と同様に、AI 革命の大きな可能性を模索しています。この新しい時代において最も賢明なのは、AI をただ導入するだけでなく、安全に導入することです」- Palo Alto Networks、CMO、Kelly Waldher 氏

「創造性の未来とは、クリエイティブとテクノロジーのダイナミックなパートナーシップであると私たちは常に信じてきました。動画、画像、音声の最高水準の AI モデルを、Envato の無制限サブスクリプションに直接組み込んでいるのはそのためです。Veo 3 などのモデルが広く使用されていることは初期の兆候から明らかになっており、コミュニティの創造性が加速し、その過程でコミュニティが成長していることがわかります」- Envato、CEO、Hichame Assi 氏
Vertex AI で Imagen 4 の一般提供(GA)を開始
Google の最先端のテキスト画像変換モデルである Imagen 4 は、創造性とスピードを重視して設計されています。フォトリアリスティックな画像、クリアな画質、テキスト レンダリング、タイポグラフィを実現し、これまで以上に迅速に想像力を形にします。Imagen 4 は Vertex AI で一般提供されており、本番環境で使用できます。
スケーラブルなクリエイティブ ソリューションと生成 AI ソリューションを提供するブランド ファミリーの Shutterstock は、Google の Imagen 4 モデルを使用して、高品質で商用利用可能な AI 画像を生成しています。
「Shutterstock の使命は、ビジネスの効率を高めるために不可欠な、普遍的な要素を提供することです。Google の Imagen 4 モデルを当社の AI 画像生成ツールに組み込むことで、チームがアイデアを市場に投入できるビジュアルに変換し、数秒で成果を上げることがこれまで以上に簡単になります。Imagen 4 を使用することで、お客様が期待する基準を満たす、高品質で商用利用可能な出力を提供できます。この統合により、Shutterstock のお客様は、クリエイティブ AI において未来を見据えた最先端のツールを常に利用できるようになります」- Shutterstock、シニア プロダクト マネージャー Keenan Kadam 氏
Vertex AI で Gemini 2.5 TTS(Text-to-Speech)の一般提供(GA)を開始
Google の強力な生成メディア機能には、音声も含まれます。Gemini 2.5 Text-to-Speech を活用して、高忠実度の音声アプリケーションを Vertex AI のセキュリティとスケーラビリティで作成できます。
このたび、Gemini 2.5 Text-to-Speech(TTS) が Pro モデルと Flash モデルの両方で一般提供が開始されたことをお知らせいたします。このモデルは、人間のような表現と制御に重点を置いており、音声アプリケーションの構築方法を変革します。
- スタジオ品質の会話の一般提供を開始: 途切れ途切れの単一スピーカー システムに頼るのはもうやめましょう。Gemini 2.5 Flash と Gemini 2.5 Pro TTS は本番環境での使用が可能になり、ポッドキャスト、オーディオブック、豊かな会話型カスタマー サービス向けに、1 回の API 呼び出しで動的な複数話者の対話を生成できます。
- 高度なスタイルとトーンの制御: 自然言語プロンプトを活用して、テキストだけでなくパフォーマンスも指示できます。音声のトーン、感情表現、アクセントを制御できるようになったため、ブランドの声を忠実に再現できます。
- グローバルなリーチ、完璧な配信: Gemini 2.5 Flash と Gemini 2.5 Pro TTS は 70 以上の言語で利用可能になり、地域を問わず、世界中のユーザーに同じ高品質で表現力豊かな音声体験を提供します。
どの生成メディアモデルをいつ使用するか
Google は、プロジェクトに最適なモデルを選択する際には選択肢が重要であることを理解しています。そのため、エンタープライズ グレードの作業に対応するさまざまなオプションをご用意しています。何から始めたらよいかわからない場合は、こちらのクイック リファレンスをご参照ください。
- Veo 3 は、シーン、キャラクター、ナラティブ フローを細かく制御しながら、ダイナミックで高品質な動画を作成するワークフローを必要とする場合に最適です。ソーシャル メディア コンテンツ、マーケティング キャンペーン、動画でストーリーを伝えることが重要なあらゆるプロジェクトに適しています。テキスト、画像、またはその組み合わせを入力に使用できます。Veo 3 の最新の料金設定については、こちらをご覧ください。
- Gemini 2.5 Flash Image は、画像作成の出発点として、またはワークフローが反復的で、視覚的な整合性が高い画像の作成や編集が必要な場合に最適です。会話型編集、スケッチから画像への変換、スタイル転送、既存のビジュアルの適応に適しています。画像とテキスト プロンプトの組み合わせが入力としてよく使用されます。
- Imagen 4 は、テキストからまったく新しい画像を高速かつ高解像度で生成することに重点を置いたワークフローに適しています。スピードと解像度が主な懸念事項となる、大容量のテキスト画像変換アプリケーション向けに構築されています。
- Gemini 2.5 Flash または Gemini 2.5 Pro TTS(Text-to-Speech)は、高品質で感情豊かな音声でテキストを生き生きと表現することを重視しているワークフローに最適です。リアルな音声エージェント、ポッドキャストや e ラーニングなどのコンテンツのプロフェッショナルなナレーション(複数話者合成を含む)、ゲームやエンターテイメントのダイナミックなキャラクター ボイスの作成に適しています。テキストを入力に使用します。
Vertex AI でエンタープライズ グレードのクリエイティビティを体験
Gemini 2.5 Flash Image、Veo 3、Imagen 4、Gemini 2.5 TTS は、Vertex AI で本日よりご利用いただけます。
Vertex AI Studio を利用して、Gemini 2.5 Flash Image と Gemini 2.5 TTS を今すぐお試しください。Veo 3 と Imagen 4 は、Vertex AI Media Studio でお試しいただけます。
ー Vertex AI、プロダクト マネジメント担当バイス プレジデント Michael Gerstenhaber