Usar el reescritor de instrucciones

Prueba la generación de imágenes (Vertex AI Studio)

Prueba Imagen en Colab

Imagen en Vertex AI ofrece una herramienta de reescritura de instrucciones basada en LLM, también conocida como reescritor de instrucciones. El reescritor de instrucciones te ayuda a obtener imágenes de mayor calidad agregando más detalles a tu instrucción.

Si inhabilitas el reescritor de instrucciones, es posible que se vea afectada la calidad de las imágenes y el grado en que el resultado se asemeja a la instrucción que proporcionaste. Esta función está habilitada de forma predeterminada para las siguientes versiones del modelo:

  • imagen-4.0-generate-001
  • imagen-4.0-fast-generate-001
  • imagen-4.0-ultra-generate-001
  • imagen-3.0-generate-002

La respuesta de la API entrega la instrucción reescrita solo si la instrucción original tiene menos de 30 palabras.

Usa el reescritor de instrucciones

Para usar el reescritor de instrucciones, haz lo siguiente:

Console

  1. En la Google Cloud consola, ve a la página Vertex AI > Media Studio.

    Ir a Media Studio

  2. Haz clic en Imagen. Se mostrará la página de generación de imágenes de Imagen Media Studio.

  3. En el panel Configuración, ajusta las siguientes opciones:

    • Modelo: Elige un modelo entre las opciones disponibles.

      Para obtener más información sobre los modelos disponibles, consulta Modelos de imágenes.

    • Cantidad de resultados: Ajusta el control deslizante o ingresa un valor entre 1 y 4.

    • En el cuadro Instrucción negativa, ingresa una instrucción que describa lo que no quieres que se genere en la imagen.

  4. En el cuadro Escribe tu instrucción, haz clic en Ayúdame a escribir.

    Se muestra la ventana Mejorar mi instrucción.

  5. En el cuadro Instrucción actual, escribe tu instrucción y, luego, haz clic en Mejorar.

    La instrucción reescrita se muestra en el cuadro Instrucción mejorada. Puedes editar la instrucción mejorada o usarla tal como se muestra.

  6. Haz clic en Insertar para usar la instrucción que se muestra.

    La instrucción se inserta en el cuadro Escribe tu instrucción.

  7. Haz clic en Generar .

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • PROJECT_ID: El Google Cloud ID del proyecto.
  • MODEL_VERSION: Es la versión del modelo de generación de imágenes que se usará.

    Para obtener más información sobre las versiones y los atributos del modelo, consulta las versiones del modelo.

  • LOCATION: La región del proyecto. Por ejemplo, us-central1, europe-west2 o asia-northeast3. Para obtener una lista de las regiones disponibles, consulta IA generativa en ubicaciones de Vertex AI.
  • TEXT_PROMPT: La instrucción de texto que guía qué imágenes genera el modelo. Antes de generar las imágenes, esta instrucción base se mejora con más detalles y un lenguaje descriptivo a través de la herramienta de reformulación de instrucciones basada en LLM.
  • IMAGE_COUNT: Es un número entero que describe la cantidad de imágenes que se generarán. Los valores aceptados son de 1 a 4. El valor predeterminado es 4.
  • PROMPT_SETTING: Es un valor booleano. true habilita las instrucciones mejoradas y false las inhabilita. El valor predeterminado es true.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict

Cuerpo JSON de la solicitud:

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT"
    }
  ],
  "parameters": {
    "sampleCount": IMAGE_COUNT,
    "enhancePrompt": PROMPT_SETTING
  }
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict" | Select-Object -Expand Content
Con la mejora de instrucciones habilitada, la respuesta incluye un campo prompt adicional que muestra la instrucción mejorada y su imagen generada asociada:
  {
    "predictions": [
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_1",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_1"
      },
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_2",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_2"
      }
    ]
  }

Por ejemplo, la siguiente respuesta de muestra es para una solicitud con "sampleCount": 2 y "prompt": "A raccoon wearing formal clothes, wearing a top hat. Oil painting in the style of Vincent Van Gogh.". La respuesta muestra dos objetos de predicción, cada uno con su instrucción mejorada y los bytes de imagen generados codificados en base64.

{
  "predictions": [
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh,
        depicting a raccoon adorned in a finely tailored tuxedo, complete with a
        crisp white shirt and a bow tie. The raccoon also sports a classic top
        hat, perched jauntily on its head. The painting uses thick, swirling
        brushstrokes characteristic of van Gogh, with vibrant hues of blue,
        yellow, and green in the background, contrasting with the dark tones of
        the raccoon's attire. The light source is subtly placed, casting a
        dramatic shadow of the raccoon's attire onto the surface it sits upon,
        further enhancing the depth and dimensionality of the composition. The
        overall impression is one of a whimsical and sophisticated character, a
        raccoon elevated to a higher class through its formal attire, rendered
        in van Gogh's iconic style.",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    },
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh featuring
        a raccoon in a dapper suit, complete with a black jacket, crisp white
        shirt, and a black bow tie. The raccoon is wearing a black top hat,
        adding a touch of elegance to its ensemble. The painting is rendered
        with characteristic van Gogh brushwork, utilizing thick, impasto strokes
        of color. The background is a swirl of blues, greens, and yellows,
        creating a vibrant yet slightly chaotic atmosphere that contrasts with
        the raccoon's formal attire. The lighting is dramatic, casting sharp
        shadows and highlighting the textures of the fabric and the raccoon's
        fur, enhancing the sense of realism within the fantastical scene. The
        composition focuses on the raccoon's proud posture, highlighting the
        whimsical contrast of a wild animal dressed in formal attire, captured
        in the unique artistic language of van Gogh. ",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

¿Qué sigue?