AI & 機械学習

Vertex AI で Imagen 3 を使い始めるためのデベロッパーガイド

2024年9月5日

Katie Nguyen

Developer Relations Engineer

Try Gemini 3

Our most intelligent model is now available on Vertex AI and Gemini Enterprise

※この投稿は米国時間 2024 年 8 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

ここ数か月間、初期ユーザーは Vertex AI の Imagen 3 をテストし、貴重なインサイトを共有してくれました。ユーザーが求めているのは、魅力的なビジュアルを生成し、実用的なクリエイティブアプリケーションを強化する AI モデルであることは明らかです。私たちは、ユーザーからのフィードバックを基に、3 つの共通テーマを特定しました。

多様な芸術スタイルと形式にわたる比類のない品質の要求
強力なプロンプト準拠と迅速な画像生成への要望
SynthID 透かしと高度な安全フィルタによる信頼の保護と構築のためのコントロール

この投稿では、これらの各コンセプトについて詳しく説明します。また、Imagen 3 を最大限に活用できるように、いくつかのコード例とプロンプトのベストプラクティスもご紹介します。

妥協のない品質と汎用性

Imagen 3 は、生成画像の品質と制御における新たな基準を確立します。このテキスト画像変換モデルは、優れた構成、鮮明さ、色の正確さ、解像度を備えた写実的なビジュアルを生成します。Imagen 3 を使用すると、より幅広い芸術スタイルと形式を探索できます。写実的な傑作から気まぐれなクレイアニメーションのシーンまで、このモデルの幅広いスタイルと形式は、独自の芸術的ビジョンを表現するツールを提供します。

こうした写実描写機能を実証するために、新しい料理本の表紙の画像モックアップを作成する例を見てみましょう。次のプロンプトを使用すると、信じられないほど詳細で、構成に優れ、写実的な画像を生成できます。

読み込んでいます...

https://storage.googleapis.com/gweb-cloudblog-publish/images/1-Cookbook.max-2200x2200.png

テキスト レンダリング

Imagen 3 は、画像内のテキストのレンダリングに関しても新しい可能性をもたらします。この機能を試してみる楽しい方法は、さまざまなフォントと色のキャプションが付いたグリーティングカード、ポスター、ソーシャルメディアの投稿の画像を生成することです。この機能は、表示したい短いテキストの説明をプロンプトに追加するだけで簡単に使用できます。タイトルを追加して、料理本の表紙を再生成するとします。

読み込んでいます...

https://storage.googleapis.com/gweb-cloudblog-publish/images/2-Cookbook-with-title.max-2200x2200.png

あなたの意図に近づく

Imagen 3 のプロンプト理解機能は、どんなに微妙なニュアンスでも、自然言語による説明をそれに近いビジュアルに変換します。説明では、特定のカメラアングルからレンズの種類、画像の構成まで、すべてを指定できます。Imagen 3 はプロンプトに忠実に従うため、頭の中のイメージと最終的なイメージのギャップを埋めやすくなっています。モデルに単純な主題とアクションを設定するプロンプトや複雑で多層的な説明を提供でき、モデルはユーザーのクリエイティブプロセスに適応して幅広いスタイルを実現します。

Imagen 3 は詳細に記述されたプロンプトにも正確に応えられるため、詳細にわたる情報を提供すると、通常はより高品質でより正確な結果が得られます。プロンプトを作成する際に盛り込むとよい内容をいくつか次に示します。

配置: 被写体を配置する場所を指定してシーンを演出できます。
照明: 柔らかい照明や強い照明で雰囲気を作り、照明の方向と焦点を制御できます。
角度とレンズ: カメラの角度とレンズの種類を指定すると、奥行きと遠近感を追加できます。
スタイル: 写実的な画像以外にも、デジタルアート、映画風、ビンテージ、ミニマリスト風の画像なども生成できます。

レイテンシの短縮

Imagen 3 はこれまでで最も高品質なモデルですが、生成速度が最適化された Imagen 3 Fast も提供されています。Imagen 3 Fast は、より明るくコントラストの高い画像を作成するのに適しています。Imagen 2 と比較すると、レイテンシが 40% 低減されています。これら 2 つのモデルをデモンストレーションするために、同じプロンプトで 2 つの画像を生成できます。先ほどと同じ料理本に追加するサラダの写真の 2 つのオプションを生成してみましょう。

読み込んでいます...

https://storage.googleapis.com/gweb-cloudblog-publish/images/3-Imagen3-fast-salad.max-2200x2200.png

Imagen 3 Fast によって生成された画像

読み込んでいます...

https://storage.googleapis.com/gweb-cloudblog-publish/images/4-Imagen3-salad.max-2200x2200.png

Imagen 3 によって生成された画像

自分の作品を保護し、責任を持って創作する

Imagen 3 には、コントロールを損なうことなく芸術的なビジョンに集中できるようにするための安全策が組み込まれています。Google DeepMind と連携して、Imagen 3 はピクセルレベルで目に見えない透かしを埋め込むテクノロジーである SynthID を活用しています。デフォルトでは、Imagen 3 で生成されたすべての画像にデジタル透かしが追加されますが、add_watermark パラメータを使用してこの機能を明示的に有効にすることができます。また、API を使用して、画像が Imagen を使用して生成されたかどうかを確認することもできます。これにより、AI で生成された画像の信頼性が検証され、透明性を確保して作品の悪用を防ぐことができます。

Imagen 3 の高度な安全フィルタを使用すると、生成される画像の種類を制御して、ブランドの価値や原則を満たすようにすることもできます。生成される画像の安全フィルタのしきい値を構成するには、safety_filter_level を変更します。安全レベルは、「block_most」、「block_some」、または「block_few」に変更できます。生成される人物の種類を制御する安全設定を変更するには、person_generation を「allow_all」、「allow_adult」、または「dont_allow」に変更します。

読み込んでいます...

次のステップ

Imagen 3 は、許可リスト付きで一般公開されました。現在、明確に定義されたユースケースを持つ企業の開発者向けに、Vertex AI の Imagen 3 へのアクセスを優先しています。アクセスはこちらのフォームからお申し込みいただけます。お申し込み内容の確認後、できるだけ早くご返信いたします。

それまでの間に、以下のリソースをチェックして Imagen 3 についてさらに詳しく学び、その機能をアプリケーションに統合することができます。