画像生成モデル Gemini 2.5 Flash Image や Imagen を、Python、Java、Go の各プログラミング言語で利用可能な API で使用して、テキストの説明から画像を数秒で生成、編集しましょう。
新規のお客様には、Vertex AI で画像の生成などにご利用いただける無料クレジット最大 $300 分を差し上げます。
概要
テキスト画像変換の AI は、テキストの説明から画像を生成して編集できる AI の一種です。このテクノロジーは、ビジュアル コンテンツの操作や作成の方法を変える可能性を秘めています。Google Cloud の Text-to-AI ツールとリソースは、Vertex AI で利用可能な Imagen、Gemini 2.5 Flash Image、Veo などの事前トレーニング済み AI モデルを含め、デベロッパーがテキストから画像の生成を簡単に実装できるように設計されています。
アプリケーション開発でテキスト画像変換 AI を使用して、モックアップ、プロトタイプ、イラスト、テストデータ、教育コンテンツ、デバッグ用の可視化を生成できます。開発者は、Google Cloud の Vertex AI と Cloud Vision API を使用して、テキスト検出、オブジェクト検出、画像分類などの一連の画像処理機能にアクセスできます。 Document AI を使用してスキャンしたドキュメントからテキストを抽出し、テキストの説明画像を生成できます。
Imagen と Gemini 2.5 Flash Image は、Google の主要なテキスト画像変換モデルです。
Imagen: Imagen は、画像に特化した純粋なモデルです。これは拡散エンジンとして構築されており、テキスト プロンプトから高品質で洗練されたフォトリアリスティックな画像を生成することに主眼を置いています。その強みは、「テキストをピクセルにパターン マッチング」して、美しく視覚的に魅力的な画像を生成することにあります。
Gemini 2.5 Flash Image: ネイティブにマルチモーダルな大規模言語モデル(LLM)です。専用の画像モデルとは異なり、画像を別の形式の「言語」として扱います。つまり、テキストと画像の両方を単一の統合されたステップで理解して処理するように、ゼロからトレーニングされています。このアーキテクチャにより、単純な生成を超えた独自の機能が実現します。
これらのテキスト画像変換の AI モデルには、Google Cloud の Vertex AI または Google AI Studio からアクセスできます。このモデルを使用するには、テキスト プロンプトを入力してパラメータを選択し(一部のモデルでは、生成された画像のスタイル、独創性、精度を制御するパラメータを選択できます)、最後に画像を生成します。
仕組み
テキスト画像変換 AI は、自然言語処理(NLP)を使用して、テキストの説明を機械で読み取れる形式に変換します。機械で読み取れる形式に変換されると、ML モデルはテキストと画像の膨大なデータセットでトレーニングされ、パターンを識別することを学習し、それらを使用して画像を生成または編集します。Google Cloud のテキスト画像変換 AI は、Imagen と呼ばれるディープ ラーニング モデルを使用しています。これは、テキストの説明からフォトリアリスティックな画像を生成できる最先端のモデルです。
一般的な使用例
Vertex AI で、テキストから画像を生成する Imagen の機能を使用し、生成された画像をアップスケールしてエクスポートする方法を学習します。このクイックスタートでは、Google Cloud コンソールで Imagen 画像生成機能を使用する方法について説明します。
Vertex AI で、テキストから画像を生成する Imagen の機能を使用し、生成された画像をアップスケールしてエクスポートする方法を学習します。このクイックスタートでは、Google Cloud コンソールで Imagen 画像生成機能を使用する方法について説明します。
Gemini 2.5 Flash Image を使用すると、複数の画像を組み合わせて、シームレスな新しいビジュアルを作成できます。複数の参照画像を使用して、単一の統合画像を作成できます。簡単な自然言語で指示して画像を編集することもできます。グループ写真から人物を削除したり、汚れなどの小さなディテールを修正したりするなど、簡単な会話で変更できます。
また、Vertex AI の Imagen を使用すると、Imagen で生成された画像や既存の画像を編集できます。更新に関する説明テキストと変更する画像部分を指定することも(マスクベースの編集)できます。
Gemini 2.5 Flash Image を使用すると、複数の画像を組み合わせて、シームレスな新しいビジュアルを作成できます。複数の参照画像を使用して、単一の統合画像を作成できます。簡単な自然言語で指示して画像を編集することもできます。グループ写真から人物を削除したり、汚れなどの小さなディテールを修正したりするなど、簡単な会話で変更できます。
また、Vertex AI の Imagen を使用すると、Imagen で生成された画像や既存の画像を編集できます。更新に関する説明テキストと変更する画像部分を指定することも(マスクベースの編集)できます。
Imagen や Gemini 2.5 Flash Image など、Vertex AI で特定の AI モデルによって生成された画像には、デジタル透かしが自動的に追加されます。これは、Google DeepMind が開発した、目に見えない透かしを画像のピクセルに直接埋め込む SynthID と呼ばれる技術を使用して行われます。
Vertex AI で画像内のデジタル透かしを検出するには、組み込みの検出ツールを使用します。Vertex AI Media Studio を使用して、検証したい画像をアップロードするだけです。SynthID の透かしが検出された場合は、画像に「SynthID 検出済み」というバッジが表示されます。
Imagen や Gemini 2.5 Flash Image など、Vertex AI で特定の AI モデルによって生成された画像には、デジタル透かしが自動的に追加されます。これは、Google DeepMind が開発した、目に見えない透かしを画像のピクセルに直接埋め込む SynthID と呼ばれる技術を使用して行われます。
Vertex AI で画像内のデジタル透かしを検出するには、組み込みの検出ツールを使用します。Vertex AI Media Studio を使用して、検証したい画像をアップロードするだけです。SynthID の透かしが検出された場合は、画像に「SynthID 検出済み」というバッジが表示されます。