Configurare le proporzioni

Prova la generazione di immagini (Vertex AI Studio)

Provare Imagen in un Colab

Questa pagina descrive come configurare le proporzioni per cui Imagen su Vertex AI genera le immagini.

A seconda di come intendi utilizzare le immagini create, alcuni formati potrebbero funzionare meglio di altri. Scegli il formato più adatto al tuo caso d'uso.

Puoi utilizzare più modelli di generazione di immagini e alcuni formati sono disponibili per modelli Imagen specifici. Per saperne di più, consulta la sezione Modelli Imagen.

Formato Uso previsto Immagine di esempio
1:1 predefinito, quadrato, uso generale
Esempio di immagine generata nella console
Prompt: scatto dall'alto di una cena a base di pasta, foto in studio nello stile della copertina di una rivista di cucina.
3:4 TV, media, film
Esempio di immagine generata nella console
Prompt: servizio fotografico commerciale, annuncio di profumo, flacone profumato alla vaniglia e lavanda su uno sfondo di colore chiaro.
4:3 TV, media, film
Esempio di immagine generata nella console
Prompt: commercial photoshoot, green and gray high top sneakers, 4k, dramatic angles.
9:16 verticale, oggetti alti, dispositivi mobili
Esempio di immagine generata nella console
Prompt: fotografia naturalistica, una spiaggia alle Hawaii con l'oceano sullo sfondo, flare, tramonto.
16:9 paesaggio
Esempio di immagine generata nella console
Prompt: grattacieli a New York, rendering futuristico, concept, arte digitale.

Console

  1. Nella console Google Cloud , vai alla pagina Vertex AI > Media Studio.

    Vai a Media Studio

  2. Fai clic su Immagine. Viene visualizzata la pagina di generazione di immagini di Imagen Media Studio.

  3. Nel riquadro Impostazioni, modifica le seguenti opzioni:

    • Modello: scegli un modello tra le opzioni disponibili.

      Per saperne di più sui modelli disponibili, consulta Modelli Imagen.

    • Proporzioni: le proporzioni da utilizzare per generare le immagini

  4. Nella casella Scrivi il prompt, inserisci il prompt di testo che descrive le immagini da generare. Ad esempio, piccola barca sull'acqua al mattino illustrazione ad acquerello.

  5. Fai clic su Genera.

REST

Le proporzioni sono un campo facoltativo nell'oggetto parameters di un corpo della richiesta JSON.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • PROJECT_ID: il tuo Google Cloud ID progetto.
  • MODEL_VERSION: La versione del modello Imagen da utilizzare. Per saperne di più sui modelli disponibili, consulta Modelli Imagen.

  • LOCATION: la regione del progetto. Ad esempio, us-central1, europe-west2 o asia-northeast3. Per un elenco delle regioni disponibili, consulta Località dell'AI generativa su Vertex AI.
  • TEXT_PROMPT: Il prompt di testo che guida le immagini generate dal modello. Questo campo è obbligatorio sia per la generazione che per la modifica.
  • IMAGE_COUNT: Il numero di immagini generate. Valori interi accettati: 1-8 (imagegeneration@002), 1-4 (tutte le altre versioni del modello). Il valore predefinito è 4.
  • Parametri facoltativi aggiuntivi

    Utilizza le seguenti variabili facoltative a seconda del tuo caso d'uso. Aggiungi alcuni o tutti i seguenti parametri nell'oggetto "parameters": {}. Questo elenco mostra i parametri facoltativi comuni e non è esaustivo. Per ulteriori informazioni sui parametri facoltativi, consulta Riferimento API Imagen: Genera immagini.

    "parameters": {
      "sampleCount": IMAGE_COUNT,
      "addWatermark": ADD_WATERMARK,
      "aspectRatio": "ASPECT_RATIO",
      "enhancePrompt": ENABLE_PROMPT_REWRITING,
      "includeRaiReason": INCLUDE_RAI_REASON,
      "includeSafetyAttributes": INCLUDE_SAFETY_ATTRIBUTES,
      "outputOptions": {
        "mimeType": "MIME_TYPE",
        "compressionQuality": COMPRESSION_QUALITY
      },
      "personGeneration": "PERSON_SETTING",
      "safetySetting": "SAFETY_SETTING",
      "seed": SEED_NUMBER,
      "storageUri": "OUTPUT_STORAGE_URI"
    }
    
    • ADD_WATERMARK: booleano. Facoltativo. Se attivare una filigrana per le immagini generate. Qualsiasi immagine generata quando il campo è impostato su true contiene una filigrana digitale SynthID che puoi utilizzare per verificare un'immagine con filigrana. Se ometti questo campo, viene utilizzato il valore predefinito true; devi impostare il valore su false per disattivare questa funzionalità. Puoi utilizzare il campo seed per ottenere un output deterministico solo quando questo campo è impostato su false.
    • ASPECT_RATIO: stringa. Facoltativo. Un parametro della modalità di generazione che controlla le proporzioni. Valori del rapporto supportati e loro utilizzo previsto:
      • 1:1 (valore predefinito, quadrato)
      • 3:4 (annunci, social media)
      • 4:3 (TV, fotografia)
      • 16:9 (orizzontale)
      • 9:16 (verticale)
    • ENABLE_PROMPT_REWRITING: booleano. Facoltativo. Un parametro per utilizzare una funzionalità di riscrittura del prompt basata su LLM per fornire immagini di qualità superiore che riflettano meglio l'intent del prompt originale. La disabilitazione di questa funzionalità potrebbe influire sulla qualità delle immagini e sull'aderenza del prompt. Valore predefinito: true.
    • INCLUDE_RAI_REASON: booleano. Facoltativo. Se attivare il codice del motivo del filtro dell'AI responsabile nelle risposte con input o output bloccati. Valore predefinito: true.
    • INCLUDE_SAFETY_ATTRIBUTES: booleano. Facoltativo. Indica se attivare i punteggi di AI responsabile arrotondati per un elenco di attributi di sicurezza nelle risposte per input e output non filtrati. Categorie di attributi di sicurezza: "Death, Harm & Tragedy", "Firearms & Weapons", "Hate", "Health", "Illicit Drugs", "Politics", "Porn", "Religion & Belief", "Toxic", "Violence", "Vulgarity", "War & Conflict". Valore predefinito: false.
    • MIME_TYPE: stringa. Facoltativo. Il tipo MIME del contenuto dell'immagine. Valori disponibili:
      • image/jpeg
      • image/gif
      • image/png
      • image/webp
      • image/bmp
      • image/tiff
      • image/vnd.microsoft.icon
    • COMPRESSION_QUALITY: numero intero. Facoltativo. Si applica solo ai file di output JPEG. Il livello di dettaglio che il modello conserva per le immagini generate in formato file JPEG. Valori: Da 0 a 100, dove un numero più alto indica una maggiore compressione. Predefinito: 75.
    • PERSON_SETTING: stringa. Facoltativo. L'impostazione di sicurezza che controlla il tipo di persone o volti che il modello può generare. Valori disponibili:
      • allow_adult (impostazione predefinita): consente la generazione di immagini solo per adulti, ad eccezione della generazione di immagini di celebrità. La generazione di celebrità non è consentita per nessuna impostazione.
      • dont_allow: disattiva l'inclusione di persone o volti nelle immagini generate.
    • SAFETY_SETTING: stringa. Facoltativo. Un'impostazione che controlla le soglie del filtro di sicurezza per le immagini generate. Valori disponibili:
      • block_low_and_above: La soglia di sicurezza più elevata, che comporta il filtraggio del maggior numero di immagini generate. Valore precedente: block_most.
      • block_medium_and_above (impostazione predefinita): una soglia di sicurezza media che bilancia il filtraggio di contenuti potenzialmente dannosi e sicuri. Valore precedente: block_some.
      • block_only_high: una soglia di sicurezza che riduce il numero di richieste bloccate a causa dei filtri di sicurezza. Questa impostazione potrebbe aumentare i contenuti discutibili generati da Imagen. Valore precedente: block_few.
    • SEED_NUMBER: numero intero. Facoltativo. Qualsiasi numero intero non negativo fornito per rendere deterministiche le immagini di output. Fornire lo stesso numero di seed genera sempre le stesse immagini di output. Se il modello che utilizzi supporta la filigrana digitale, devi impostare "addWatermark": false per utilizzare questo campo. Valori interi accettati: 1 - 2147483647.
    • OUTPUT_STORAGE_URI: stringa. Facoltativo. Il bucket Cloud Storage in cui archiviare le immagini di output. Se non vengono forniti, nella risposta vengono restituiti i byte dell'immagine con codifica base64. Valore di esempio: gs://image-bucket/output/.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict

Corpo JSON della richiesta:

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT"
    }
  ],
  "parameters": {
    "sampleCount": IMAGE_COUNT
  }
}

Per inviare la richiesta, scegli una di queste opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict" | Select-Object -Expand Content
La seguente risposta di esempio è per una richiesta con "sampleCount": 2. La risposta restituisce due oggetti di previsione, con i byte dell'immagine generata codificati in base64.
{
  "predictions": [
    {
      "bytesBase64Encoded": "BASE64_IMG_BYTES",
      "mimeType": "image/png"
    },
    {
      "mimeType": "image/png",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

Se utilizzi un modello che supporta il miglioramento dei prompt, la risposta include un ulteriore campo prompt con il prompt migliorato utilizzato per la generazione:

{
  "predictions": [
    {
      "mimeType": "MIME_TYPE",
      "prompt": "ENHANCED_PROMPT_1",
      "bytesBase64Encoded": "BASE64_IMG_BYTES_1"
    },
    {
      "mimeType": "MIME_TYPE",
      "prompt": "ENHANCED_PROMPT_2",
      "bytesBase64Encoded": "BASE64_IMG_BYTES_2"
    }
  ]
}

Passaggi successivi