Generare immagini con Gemini

L'anteprima di Gemini 2.5 Flash Image supporta la generazione di risposte in più modalità, tra cui testo e immagini.

Generazione di immagini

L'anteprima pubblica di Gemini Flash Preview Image per la generazione di immagini (gemini-2.5-flash-image-preview) supporta la possibilità di generare immagini oltre al testo. In questo modo, le funzionalità di Gemini vengono ampliate per includere quanto segue:

  • Genera immagini in modo iterativo tramite conversazione in linguaggio naturale, regolando le immagini mantenendo coerenza e contesto.
  • Genera immagini con rendering di testo lungo di alta qualità.
  • Genera output di testo e immagini con interleaving. Ad esempio, un post del blog con testo e immagini in un unico turno. In precedenza, ciò richiedeva di concatenare più modelli.
  • Genera immagini utilizzando le conoscenze del mondo e le capacità di ragionamento di Gemini.

Con questa release sperimentale pubblica, l'anteprima di Gemini 2.5 Flash Image può generare immagini a 1024 px, supporta la generazione di immagini di persone e contiene filtri di sicurezza aggiornati che offrono un'esperienza utente più flessibile e meno restrittiva.

Supporta le seguenti modalità e funzionalità:

  • Da testo a immagine

    • Prompt di esempio: "Genera un'immagine della Torre Eiffel con fuochi d'artificio sullo sfondo".
  • Da testo a immagine (rendering del testo)

    • Prompt di esempio: "genera una foto cinematografica di un grande edificio con questa proiezione di testo gigante mappata sulla parte anteriore dell'edificio: "Gemini 2.5 ora può generare testo in formato lungo""
  • Da testo a immagine/i e testo (interleaving)

    • Prompt di esempio: "Genera una ricetta illustrata per una paella. Crea immagini insieme al testo mentre generi la ricetta."
    • Prompt di esempio: "Genera una storia su un cane in stile di animazione di cartoni animati 3D. Per ogni scena, genera un'immagine"
  • Immagine/i e testo in immagine/i e testo (interleaving)

    • Prompt di esempio: (con l'immagine di una stanza arredata) "Quali altri colori di divani si abbinerebbero al mio spazio? Puoi aggiornare l'immagine?"
  • Generazione di immagini in base alle impostazioni internazionali

    • Prompt di esempio: "Genera un'immagine di una colazione".

Limitazioni:

  • Per ottenere prestazioni ottimali, utilizza le seguenti lingue: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • La generazione di immagini non supporta input audio o video.
  • La generazione di immagini potrebbe non essere sempre attivata:
    • Il modello potrebbe restituire solo testo. Prova a chiedere esplicitamente output di immagini. Ad esempio, "fornisci immagini man mano che procedi".
    • Il modello potrebbe generare testo come immagine. Prova a chiedere esplicitamente output di testo. Ad esempio, "genera un testo narrativo con illustrazioni".
    • Il modello potrebbe interrompere la generazione a metà. Riprova o prova un prompt diverso.

Genera immagini

Le sezioni seguenti descrivono come generare immagini utilizzando Vertex AI Studio o l'API.

Per indicazioni e best practice per i prompt, consulta Progettare prompt multimodali.

Console

Per utilizzare la generazione di immagini:

  1. Apri Vertex AI Studio > Crea prompt.
  2. Fai clic su Cambia modello e seleziona gemini-2.5-flash-image-preview dal menu.
  3. Nel riquadro Output, seleziona Immagine e testo dal menu a discesa.
  4. Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo di Scrivi un prompt.
  5. Fai clic sul pulsante Prompt ().

Gemini genererà un'immagine in base alla tua descrizione. Questa operazione dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Python

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=("Generate an image of the Eiffel tower with fireworks in the background."),
    config=GenerateContentConfig(
        response_modalities=[Modality.TEXT, Modality.IMAGE],
        candidate_count=1,
        safety_settings=[
            {"method": "PROBABILITY"},
            {"category": "HARM_CATEGORY_DANGEROUS_CONTENT"},
            {"threshold": "BLOCK_MEDIUM_AND_ABOVE"},
        ],
    ),
)
for part in response.candidates[0].content.parts:
    if part.text:
        print(part.text)
    elif part.inline_data:
        image = Image.open(BytesIO((part.inline_data.data)))
        image.save("output_folder/example-image-eiffel-tower.png")
# Example response:
#   I will generate an image of the Eiffel Tower at night, with a vibrant display of
#   colorful fireworks exploding in the dark sky behind it. The tower will be
#   illuminated, standing tall as the focal point of the scene, with the bursts of
#   light from the fireworks creating a festive atmosphere.

Node.js

Installa

npm install @google/genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

const fs = require('fs');
const {GoogleGenAI, Modality} = require('@google/genai');

const GOOGLE_CLOUD_PROJECT = process.env.GOOGLE_CLOUD_PROJECT;
const GOOGLE_CLOUD_LOCATION =
  process.env.GOOGLE_CLOUD_LOCATION || 'us-central1';

async function generateContent(
  projectId = GOOGLE_CLOUD_PROJECT,
  location = GOOGLE_CLOUD_LOCATION
) {
  const ai = new GoogleGenAI({
    vertexai: true,
    project: projectId,
    location: location,
  });

  const response = await ai.models.generateContentStream({
    model: 'gemini-2.0-flash-exp',
    contents:
      'Generate an image of the Eiffel tower with fireworks in the background.',
    config: {
      responseModalities: [Modality.TEXT, Modality.IMAGE],
    },
  });

  const generatedFileNames = [];
  let imageIndex = 0;
  for await (const chunk of response) {
    const text = chunk.text;
    const data = chunk.data;
    if (text) {
      console.debug(text);
    } else if (data) {
      const fileName = `generate_content_streaming_image_${imageIndex++}.png`;
      console.debug(`Writing response image to file: ${fileName}.`);
      try {
        fs.writeFileSync(fileName, data);
        generatedFileNames.push(fileName);
      } catch (error) {
        console.error(`Failed to write image file ${fileName}:`, error);
      }
    }
  }

  return generatedFileNames;
}

REST

Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps."},
    },
    "generation_config": {
      "response_modalities": ["TEXT", "IMAGE"],
     },
     "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Genera testo e immagini interleaving

L'anteprima di Gemini 2.5 Flash Image può generare immagini interleaved con le sue risposte di testo. Ad esempio, puoi generare immagini di come potrebbe apparire ogni passaggio di una ricetta generata per accompagnare il testo del passaggio, senza dover fare richieste separate al modello.

Console

Per generare immagini interleaving con risposte di testo:

  1. Apri Vertex AI Studio > Crea prompt.
  2. Fai clic su Cambia modello e seleziona gemini-2.5-flash-image-preview dal menu.
  3. Nel riquadro Output, seleziona Immagine e testo dal menu a discesa.
  4. Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo di Scrivi un prompt. Ad esempio, "Crea un tutorial che spieghi come preparare un panino con burro di arachidi e marmellata in tre semplici passaggi. Per ogni passaggio, fornisci un titolo con il numero del passaggio, una spiegazione e genera anche un'immagine, genera ogni immagine con un formato 1:1".
  5. Fai clic sul pulsante Prompt ().

Gemini genererà una risposta in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Python

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=(
        "Generate an illustrated recipe for a paella."
        "Create images to go alongside the text as you generate the recipe"
    ),
    config=GenerateContentConfig(response_modalities=[Modality.TEXT, Modality.IMAGE]),
)
with open("output_folder/paella-recipe.md", "w") as fp:
    for i, part in enumerate(response.candidates[0].content.parts):
        if part.text is not None:
            fp.write(part.text)
        elif part.inline_data is not None:
            image = Image.open(BytesIO((part.inline_data.data)))
            image.save(f"output_folder/example-image-{i+1}.png")
            fp.write(f"![image](example-image-{i+1}.png)")
# Example response:
#  A markdown page for a Paella recipe(`paella-recipe.md`) has been generated.
#   It includes detailed steps and several images illustrating the cooking process.

REST

Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": { "text": "Create a tutorial explaining how to make a peanut butter and jelly sandwich in three easy steps. For each step, provide a title with the number of the step, an explanation, and also generate an image, generate each image in a 1:1 aspect ratio."},
    },
    "generation_config": {
      "response_modalities": ["TEXT", "IMAGE"],
     },
     "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Generazione di immagini in base alle impostazioni internazionali

L'anteprima di Gemini 2.5 Flash Image può includere anche informazioni sulla tua posizione quando fornisce risposte di testo o immagini. Ad esempio, puoi generare immagini di tipi di luoghi o esperienze che tengono conto della tua posizione attuale senza doverla specificare al modello.

Console

Per utilizzare la generazione di immagini in base alle impostazioni internazionali:

  1. Apri Vertex AI Studio > Crea prompt.
  2. Fai clic su Cambia modello e seleziona gemini-2.5-flash-image-preview dal menu.
  3. Nel riquadro Output, seleziona Immagine e testo dal menu a discesa.
  4. Scrivi una descrizione dell'immagine che vuoi generare nell'area di testo di Scrivi un prompt. Ad esempio, "Genera una foto di una colazione tipica".
  5. Fai clic sul pulsante Prompt ().

Gemini genererà una risposta in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Python

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=("Generate a photo of a breakfast meal."),
    config=GenerateContentConfig(response_modalities=[Modality.TEXT, Modality.IMAGE]),
)
for part in response.candidates[0].content.parts:
    if part.text:
        print(part.text)
    elif part.inline_data:
        image = Image.open(BytesIO((part.inline_data.data)))
        image.save("output_folder/example-breakfast-meal.png")
# Example response:
#   Generates a photo of a vibrant and appetizing breakfast meal.
#   The scene will feature a white plate with golden-brown pancakes
#   stacked neatly, drizzled with rich maple syrup and ...

REST

Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": { "text": "Generate a photo of a typical breakfast."},
    },
    "generation_config": {
      "response_modalities": ["TEXT", "IMAGE"],
     },
     "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.