Prueba la generación de imágenes (Vertex AI Studio)
Imagen en Vertex AI ofrece una herramienta de reescritura de instrucciones basada en LLM, también conocida como reescritor de instrucciones. El reescritor de instrucciones te ayuda a obtener imágenes de mayor calidad agregando más detalles a tu instrucción.
Si inhabilitas el reescritor de instrucciones, es posible que se vea afectada la calidad de las imágenes y el grado en que el resultado se asemeja a la instrucción que proporcionaste. Esta función está habilitada de forma predeterminada para las siguientes versiones del modelo:
imagen-4.0-generate-001
imagen-4.0-fast-generate-001
imagen-4.0-ultra-generate-001
imagen-3.0-generate-002
La respuesta de la API entrega la instrucción reescrita solo si la instrucción original tiene menos de 30 palabras.
Usa el reescritor de instrucciones
Para usar el reescritor de instrucciones, haz lo siguiente:
Console
En la Google Cloud consola, ve a la página Vertex AI > Media Studio.
Haz clic en Imagen. Se mostrará la página de generación de imágenes de Imagen Media Studio.
En el panel Configuración, ajusta las siguientes opciones:
Modelo: Elige un modelo entre las opciones disponibles.
Para obtener más información sobre los modelos disponibles, consulta Modelos de imágenes.
Cantidad de resultados: Ajusta el control deslizante o ingresa un valor entre 1 y 4.
En el cuadro Instrucción negativa, ingresa una instrucción que describa lo que no quieres que se genere en la imagen.
En el cuadro Escribe tu instrucción, haz clic en Ayúdame a escribir.
Se muestra la ventana Mejorar mi instrucción.
En el cuadro Instrucción actual, escribe tu instrucción y, luego, haz clic en Mejorar.
La instrucción reescrita se muestra en el cuadro Instrucción mejorada. Puedes editar la instrucción mejorada o usarla tal como se muestra.
Haz clic en Insertar para usar la instrucción que se muestra.
La instrucción se inserta en el cuadro Escribe tu instrucción.
Haz clic en Generar
.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_ID: El Google Cloud ID del proyecto.
- MODEL_VERSION: Es la versión del modelo de generación de imágenes que se usará.
Para obtener más información sobre las versiones y los atributos del modelo, consulta las versiones del modelo.
- LOCATION: La región del proyecto. Por ejemplo,
us-central1
,europe-west2
oasia-northeast3
. Para obtener una lista de las regiones disponibles, consulta IA generativa en ubicaciones de Vertex AI. - TEXT_PROMPT: La instrucción de texto que guía qué imágenes genera el modelo. Antes de generar las imágenes, esta instrucción base se mejora con más detalles y un lenguaje descriptivo a través de la herramienta de reformulación de instrucciones basada en LLM.
-
IMAGE_COUNT: Es un número entero que describe la cantidad de imágenes que se generarán. Los valores aceptados son de
1
a4
. El valor predeterminado es4
. -
PROMPT_SETTING: Es un valor booleano.
true
habilita las instrucciones mejoradas yfalse
las inhabilita. El valor predeterminado estrue
.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict
Cuerpo JSON de la solicitud:
{ "instances": [ { "prompt": "TEXT_PROMPT" } ], "parameters": { "sampleCount": IMAGE_COUNT, "enhancePrompt": PROMPT_SETTING } }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict" | Select-Object -Expand Content
prompt
adicional que muestra la instrucción mejorada y su imagen generada asociada:
{ "predictions": [ { "mimeType": "MIME_TYPE", "prompt": "ENHANCED_PROMPT_1", "bytesBase64Encoded": "BASE64_IMG_BYTES_1" }, { "mimeType": "MIME_TYPE", "prompt": "ENHANCED_PROMPT_2", "bytesBase64Encoded": "BASE64_IMG_BYTES_2" } ] }
Por ejemplo, la siguiente respuesta de muestra es para una solicitud con "sampleCount": 2
y "prompt": "A raccoon wearing formal
clothes, wearing a top hat. Oil painting in the style of Vincent Van
Gogh."
. La respuesta muestra dos objetos de predicción, cada uno con su instrucción mejorada y los bytes de imagen generados codificados en base64.
{ "predictions": [ { "mimeType": "image/png", "prompt": "An oil painting in the style of Vincent van Gogh, depicting a raccoon adorned in a finely tailored tuxedo, complete with a crisp white shirt and a bow tie. The raccoon also sports a classic top hat, perched jauntily on its head. The painting uses thick, swirling brushstrokes characteristic of van Gogh, with vibrant hues of blue, yellow, and green in the background, contrasting with the dark tones of the raccoon's attire. The light source is subtly placed, casting a dramatic shadow of the raccoon's attire onto the surface it sits upon, further enhancing the depth and dimensionality of the composition. The overall impression is one of a whimsical and sophisticated character, a raccoon elevated to a higher class through its formal attire, rendered in van Gogh's iconic style.", "bytesBase64Encoded": "BASE64_IMG_BYTES" }, { "mimeType": "image/png", "prompt": "An oil painting in the style of Vincent van Gogh featuring a raccoon in a dapper suit, complete with a black jacket, crisp white shirt, and a black bow tie. The raccoon is wearing a black top hat, adding a touch of elegance to its ensemble. The painting is rendered with characteristic van Gogh brushwork, utilizing thick, impasto strokes of color. The background is a swirl of blues, greens, and yellows, creating a vibrant yet slightly chaotic atmosphere that contrasts with the raccoon's formal attire. The lighting is dramatic, casting sharp shadows and highlighting the textures of the fabric and the raccoon's fur, enhancing the sense of realism within the fantastical scene. The composition focuses on the raccoon's proud posture, highlighting the whimsical contrast of a wild animal dressed in formal attire, captured in the unique artistic language of van Gogh. ", "bytesBase64Encoded": "BASE64_IMG_BYTES" } ] }
¿Qué sigue?
- Configura el idioma de la instrucción de texto
- Cómo configurar la relación de aspecto
- Cómo omitir contenido con una instrucción negativa
- Genera imágenes determinísticas