Modificare le immagini con Gemini

L'anteprima di Gemini 2.5 Flash Image supporta più tipi di modifica delle immagini.

Modifica delle immagini

L'anteprima pubblica di Gemini 2.5 Flash Image per la generazione di immagini (gemini-2.5-flash-image-preview) supporta la possibilità di modificare le immagini oltre a generarle. Con questa release di anteprima pubblica, l'immagine Gemini 2.5 Flash supporta la modifica migliorata delle immagini e la modifica multi-turno e contiene filtri di sicurezza aggiornati che offrono un'esperienza utente più flessibile e meno restrittiva.

Supporta le seguenti modalità e funzionalità:

  • Modifica delle immagini (da testo a immagine e da immagine a immagine)

    • Prompt di esempio: "Modifica questa immagine per farla sembrare un cartone animato"
    • Prompt di esempio: [immagine di un gatto] + [immagine di un cuscino] + "Crea un punto croce del mio gatto su questo cuscino".
  • Modifica di immagini in più passaggi (chat)

    • Prompt di esempio: [carica un'immagine di un'auto blu.] "Trasforma questa auto in una cabriolet." "Ora cambia il colore in giallo." "Aggiungi uno spoiler".

Modificare un'immagine

Console

Per modificare le immagini:

  1. Apri Vertex AI Studio > Crea prompt.
  2. Fai clic su Cambia modello e seleziona gemini-2.5-flash-image-preview dal menu.
  3. Nel riquadro Output, seleziona Immagine e testo dal menu a discesa.
  4. Fai clic su Inserisci contenuti multimediali () e seleziona un'origine dal menu, poi segui le istruzioni della finestra di dialogo.
  5. Scrivi le modifiche che vuoi apportare all'immagine nell'area di testo Scrivi un prompt.
  6. Fai clic sul pulsante Prompt ().

Gemini genererà una versione modificata dell'immagine fornita in base alla tua descrizione. Questa procedura dovrebbe richiedere pochi secondi, ma potrebbe essere più lenta a seconda della capacità.

Python

Installa

pip install --upgrade google-genai

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, Modality
from PIL import Image
from io import BytesIO

client = genai.Client()

# Using an image of Eiffel tower, with fireworks in the background.
image = Image.open("test_resources/example-image-eiffel-tower.png")

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[image, "Edit this image to make it look like a cartoon."],
    config=GenerateContentConfig(response_modalities=[Modality.TEXT, Modality.IMAGE]),
)
for part in response.candidates[0].content.parts:
    if part.text:
        print(part.text)
    elif part.inline_data:
        image = Image.open(BytesIO((part.inline_data.data)))
        image.save("output_folder/bw-example-image.png")
# Example response:
#  Here's the cartoon-style edit of the image:
#  Cartoon-style edit:
#  - Simplified the Eiffel Tower with bolder lines and slightly exaggerated proportions.
#  - Brightened and saturated the colors of the sky, fireworks, and foliage for a more vibrant, cartoonish look.
#  ....

REST

Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  https://${API_ENDPOINT}:generateContent \
  -d '{
    "contents": {
      "role": "USER",
      "parts": [
        {"file_data": {
          "mime_type": "image/jpg",
          "file_uri": "<var>FILE_NAME</var>"
          }
        },
        {"text": "Convert this photo to black and white, in a cartoonish style."},
      ]

    },
    "generation_config": {
      "response_modalities": ["TEXT", "IMAGE"],
    },
    "safetySettings": {
      "method": "PROBABILITY",
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
  }' 2>/dev/null >response.json

Gemini genererà un'immagine in base alla tua descrizione. Questa procedura dovrebbe richiedere alcuni secondi, ma potrebbe essere relativamente più lenta a seconda della capacità.

Modifica di immagini in più passaggi

L'anteprima delle immagini di Gemini 2.5 Flash supporta anche la modifica in più passaggi migliorata, consentendoti di rispondere al modello con le modifiche dopo aver ricevuto una risposta con un'immagine modificata. In questo modo potrai continuare a modificare l'immagine in modo conversazionale.

Tieni presente che è consigliabile limitare la dimensione totale del file di richiesta a un massimo di 50 MB.

Per provare la modifica delle immagini in più passaggi, prova il nostro notebook di anteprima di Gemini 2.5 Flash Image.