Bilder mit Gemini generieren

Gemini 2.5 Flash Image Preview unterstützt die Generierung von Antworten in mehreren Modalitäten, darunter Text und Bilder.

Bildgenerierung

Die öffentliche Vorschau von Gemini Flash Preview Image für die Bildgenerierung (gemini-2.5-flash-image-preview) unterstützt die Generierung von Bildern zusätzlich zu Text. Dadurch werden die Funktionen von Gemini um Folgendes erweitert:

  • Bilder iterativ durch Unterhaltungen in natürlicher Sprache generieren, Bilder anpassen und dabei Konsistenz und Kontext beibehalten.
  • Bilder mit hochwertiger Darstellung von langem Text generieren
  • Verschachtelte Text-Bild-Ausgabe generieren Zum Beispiel ein Blogbeitrag mit Text und Bildern in einem einzigen Turn. Bisher war es dazu erforderlich, mehrere Modelle zu kombinieren.
  • Bilder mit dem Weltwissen und den Logikfunktionen von Gemini generieren

Mit dieser öffentlichen experimentellen Version kann Gemini 2.5 Flash Image Preview Bilder mit einer Auflösung von 1.024 Pixeln generieren. Außerdem werden Bilder von Personen unterstützt und es sind aktualisierte Sicherheitsfilter enthalten, die für eine flexiblere und weniger restriktive Nutzererfahrung sorgen.

Er unterstützt die folgenden Modalitäten und Funktionen:

  • Text zu Bild

    • Beispiel-Prompt: „Generiere ein Bild des Eiffelturms mit Feuerwerk im Hintergrund.“
  • Text zu Bild (Text-Rendering)

    • Beispiel-Prompt: „Erstelle ein kinoreifes Foto eines großen Gebäudes mit dieser riesigen Textprojektion auf der Vorderseite des Gebäudes: ‚Gemini 2.5 kann jetzt Langformtext generieren‘.“
  • Text zu Bild(ern) und Text (verschachtelt)

    • Beispiel-Prompt: „Generiere ein illustriertes Rezept für eine Paella. Erstelle Bilder neben dem Text, während du das Rezept generierst.“
    • Beispielprompt: „Erstelle eine Geschichte über einen Hund im Stil einer 3D-Cartoonanimation. Generiere für jede Szene ein Bild.“
  • Bild(er) und Text zu Bild(ern) und Text (verschachtelt)

    • Beispiel-Prompt (mit einem Bild eines möblierten Raums): „Welche anderen Sofafarben würden in meinen Raum passen? Kannst du das Bild aktualisieren?“
  • Sprachorientierte Bildgenerierung

    • Beispielprompt: „Generiere ein Bild von einem Frühstück.“

Beschränkungen:

  • Die beste Leistung erzielen Sie mit den folgenden Sprachen: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • Bei der Bildgenerierung werden keine Audio- oder Videoeingaben unterstützt.
  • Die Bildgenerierung wird möglicherweise nicht immer ausgelöst:
    • Das Modell kann nur Text ausgeben. Bitten Sie explizit um Bildausgaben. Zum Beispiel „Stelle im Laufe der Zeit Bilder bereit.“
    • Das Modell kann Text als Bild generieren. Fordern Sie Textausgaben explizit an. Zum Beispiel: „Erstelle einen narrativen Text mit Illustrationen.“
    • Das Modell kann die Generierung von Inhalten mittendrin beenden. Versuchen Sie es noch einmal oder verwenden Sie einen anderen Prompt.

Bilder erstellen

In den folgenden Abschnitten wird beschrieben, wie Sie Bilder mit Vertex AI Studio oder der API generieren.

Anleitungen und Best Practices für Prompts finden Sie unter Multimodale Prompts entwerfen.

Konsole

So verwenden Sie die Bildgenerierung:

  1. Öffnen Sie Vertex AI Studio > Prompt erstellen.
  2. Klicken Sie auf Modell wechseln und wählen Sie im Menü gemini-2.5-flash-image-preview aus.
  3. Wählen Sie im Bereich Ausgaben im Drop-down-Menü die Option Bild und Text aus.
  4. Geben Sie im Textbereich Prompt schreiben eine Beschreibung des Bildes ein, das Sie generieren möchten.
  5. Klicken Sie auf die Schaltfläche Prompt ().

Gemini generiert ein Bild basierend auf Ihrer Beschreibung. Dieser Vorgang sollte einige Sekunden dauern, kann aber je nach Kapazität vergleichsweise langsam sein.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=("Generate an image of the Eiffel tower with fireworks in the background."),
    config=GenerateContentConfig(
        response_modalities=[Modality.TEXT, Modality.IMAGE],
        candidate_count=1,
        safety_settings=[
            {"method": "PROBABILITY"},
            {"category": "HARM_CATEGORY_DANGEROUS_CONTENT"},
            {"threshold": "BLOCK_MEDIUM_AND_ABOVE"},
        ],
    ),
)
for part in response.candidates[0].content.parts:
    if part.text:
        print(part.text)
    elif part.inline_data:
        image = Image.open(BytesIO((part.inline_data.data)))
        image.save("output_folder/example-image-eiffel-tower.png")
# Example response:
#   I will generate an image of the Eiffel Tower at night, with a vibrant display of
#   colorful fireworks exploding in the dark sky behind it. The tower will be
#   illuminated, standing tall as the focal point of the scene, with the bursts of
#   light from the fireworks creating a festive atmosphere.

Node.js

Installieren

npm install @google/genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const fs = require('fs');
const {GoogleGenAI, Modality} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION =
  process.env.GOOGLE_CLOUD_LOCATION || 'us-central1';

async function generateContent(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const ai = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await ai.models.generateContentStream({
    model: 'gemini-2.0-flash-exp',
    contents:
      'Generate an image of the Eiffel tower with fireworks in the background.',
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });

  const generatedFileNames = [];
  let imageIndex = 0;
  for await (const chunk of response) {
    const text = chunk.text;
    const data = chunk.data;
    if (text) {
      console.debug(text);
    } else if (data) {
      const fileName = `generate_content_streaming_image_${imageIndex++}.png`;
      console.debug(`Writing response image to file: ${fileName}.`);
      try {
        fs.writeFileSync(fileName, data);
        generatedFileNames.push(fileName);
      } catch (error) {
        console.error(`Failed to write image file ${fileName}:`, error);
      }
    }
  }

  return generatedFileNames;
}

REST

Führen Sie den folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."},
    },
    "generation_config": {
      "response_modalities": ["TEXT", "IMAGE"],
     },
     "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Gemini generiert ein Bild basierend auf Ihrer Beschreibung. Dieser Vorgang sollte einige Sekunden dauern, kann aber je nach Kapazität vergleichsweise langsam sein.

Verschachtelte Bilder und Texte erstellen

Gemini 2.5 Flash Image Preview kann verschachtelte Bilder mit den Textantworten generieren. So können Sie beispielsweise Bilder generieren, die zeigen, wie die einzelnen Schritte eines generierten Rezepts aussehen könnten, ohne dass Sie separate Anfragen an das Modell stellen müssen.

Konsole

So erstellen Sie verschachtelte Bilder mit Textantworten:

  1. Öffnen Sie Vertex AI Studio > Prompt erstellen.
  2. Klicken Sie auf Modell wechseln und wählen Sie im Menü gemini-2.5-flash-image-preview aus.
  3. Wählen Sie im Bereich Ausgaben im Drop-down-Menü die Option Bild und Text aus.
  4. Geben Sie im Textbereich Prompt schreiben eine Beschreibung des Bildes ein, das Sie generieren möchten. Beispiel: „Erstelle eine Anleitung, in der erklärt wird, wie man in drei einfachen Schritten ein Erdnussbutter- und Marmeladenbrot zubereitet. Gib für jeden Schritt einen Titel mit der Nummer des Schritts und eine Erklärung an und generiere auch ein Bild. Generiere jedes Bild im Seitenverhältnis 1:1.“
  5. Klicken Sie auf die Schaltfläche Prompt ().

Gemini generiert eine Antwort basierend auf Ihrer Beschreibung. Dieser Vorgang sollte einige Sekunden dauern, kann aber je nach Kapazität vergleichsweise langsam sein.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=(
        "Generate an illustrated recipe for a paella."
        "Create images to go alongside the text as you generate the recipe"
    ),
    config=GenerateContentConfig(response_modalities=[Modality.TEXT, Modality.IMAGE]),
)
with open("output_folder/paella-recipe.md", "w") as fp:
    for i, part in enumerate(response.candidates[0].content.parts):
        if part.text is not None:
            fp.write(part.text)
        elif part.inline_data is not None:
            image = Image.open(BytesIO((part.inline_data.data)))
            image.save(f"output_folder/example-image-{i+1}.png")
            fp.write(f"![image](example-image-{i+1}.png)")
# Example response:
#  A markdown page for a Paella recipe(`paella-recipe.md`) has been generated.
#   It includes detailed steps and several images illustrating the cooking process.

REST

Führen Sie den folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."},
    },
    "generation_config": {
      "response_modalities": ["TEXT", "IMAGE"],
     },
     "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Gemini generiert ein Bild basierend auf Ihrer Beschreibung. Dieser Vorgang sollte einige Sekunden dauern, kann aber je nach Kapazität vergleichsweise langsam sein.

Sprachorientierte Bildgenerierung

Die Bildvorschau von Gemini 2.5 Flash kann auch Informationen zu Ihrem Standort enthalten, wenn Text- oder Bildantworten bereitgestellt werden. Sie können beispielsweise Bilder von Orten oder Erlebnissen generieren, die Ihren aktuellen Standort berücksichtigen, ohne dass Sie dem Modell Ihren Standort angeben müssen.

Konsole

So verwenden Sie die sprachorientierte Bildgenerierung:

  1. Öffnen Sie Vertex AI Studio > Prompt erstellen.
  2. Klicken Sie auf Modell wechseln und wählen Sie im Menü gemini-2.5-flash-image-preview aus.
  3. Wählen Sie im Bereich Ausgaben im Drop-down-Menü die Option Bild und Text aus.
  4. Geben Sie im Textbereich Prompt schreiben eine Beschreibung des Bildes ein, das Sie generieren möchten. Zum Beispiel: „Generiere ein Foto von einem typischen Frühstück.“
  5. Klicken Sie auf die Schaltfläche Prompt ().

Gemini generiert eine Antwort basierend auf Ihrer Beschreibung. Dieser Vorgang sollte einige Sekunden dauern, kann aber je nach Kapazität vergleichsweise langsam sein.

Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=("Generate a photo of a breakfast meal."),
    config=GenerateContentConfig(response_modalities=[Modality.TEXT, Modality.IMAGE]),
)
for part in response.candidates[0].content.parts:
    if part.text:
        print(part.text)
    elif part.inline_data:
        image = Image.open(BytesIO((part.inline_data.data)))
        image.save("output_folder/example-breakfast-meal.png")
# Example response:
#   Generates a photo of a vibrant and appetizing breakfast meal.
#   The scene will feature a white plate with golden-brown pancakes
#   stacked neatly, drizzled with rich maple syrup and ...

REST

Führen Sie den folgenden Befehl im Terminal aus, um diese Datei im aktuellen Verzeichnis zu erstellen oder zu überschreiben:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": { "text": "Generate a photo of a typical breakfast."},
    },
    "generation_config": {
      "response_modalities": ["TEXT", "IMAGE"],
     },
     "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Gemini generiert ein Bild basierend auf Ihrer Beschreibung. Dieser Vorgang sollte einige Sekunden dauern, kann aber je nach Kapazität vergleichsweise langsam sein.