Usar o reescritor de comandos

Testar a geração de imagens (Vertex AI Studio)

Testar o Imagen no Colab

O Imagen na Vertex AI oferece uma ferramenta de reescrita de comandos baseada em LLM, também conhecida como reescritor de comandos. O reescritor de comandos ajuda você a obter imagens de saída de maior qualidade adicionando mais detalhes ao comando.

Se você desativar o reescritor de comandos, a qualidade das imagens e a semelhança da saída com o comando fornecido poderão ser afetadas. Esse recurso é ativado por padrão para as seguintes versões de modelo:

  • imagen-4.0-generate-001
  • imagen-4.0-fast-generate-001
  • imagen-4.0-ultra-generate-001
  • imagen-3.0-generate-002

O comando reescrito é entregue pela resposta da API somente se o comando original tiver menos de 30 palavras.

Usar o reescritor de comandos

Para usar o reescritor de comandos, faça o seguinte:

Console

  1. No console do Google Cloud , acesse a página Vertex AI > Media Studio.

    Acessar o Media Studio

  2. Clique em Imagen. A página de geração de imagens do Imagen Media Studio é exibida.

  3. No painel Configurações, ajuste as seguintes opções:

    • Modelo: escolha um modelo entre as opções disponíveis.

      Para mais informações sobre os modelos disponíveis, consulte Modelos do Imagen.

    • Número de resultados: ajuste o controle deslizante ou insira um valor entre 1 e 4.

    • Na caixa Comando negativo, insira um comando que descreva o que você não quer que seja gerado na imagem.

  4. Na caixa Escreva seu comando, clique em Quero ajuda para escrever.

    A janela Aprimorar meu comando é exibida.

  5. Na caixa Comando atual, escreva seu comando e clique em Melhorar.

    O comando reescrito é exibido na caixa Comando aprimorado. Você pode editar o comando aprimorado ou usá-lo como está.

  6. Clique em Inserir para usar o comando mostrado.

    O comando é inserido na caixa Escreva seu comando.

  7. Clique em Gerar.

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID: o ID do projeto do Google Cloud .
  • MODEL_VERSION: a versão do modelo de geração de imagens a ser usada.

    Para mais informações sobre versões e recursos do modelo, consulte Versões do modelo.

  • LOCATION: a região do seu projeto. Por exemplo, us-central1, europe-west2 ou asia-northeast3. Para uma lista de regiões disponíveis, consulte IA generativa em locais da Vertex AI.
  • TEXT_PROMPT: o comando de texto que orienta quais imagens o modelo gera. Antes de serem geradas, as imagens são aprimoradas com mais detalhes e linguagem descritiva usando a ferramenta de alteração de comando baseada em LLM.
  • IMAGE_COUNT: um número inteiro que descreve a quantidade de imagens a serem geradas. Os valores aceitos são 1-4. O valor padrão é 4.
  • PROMPT_SETTING: um valor booleano. true ativa os comandos aprimorados, e false os desativa. O valor padrão é true.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict

Corpo JSON da solicitação:

{
  "instances": [
    {
      "prompt": "TEXT_PROMPT"
    }
  ],
  "parameters": {
    "sampleCount": IMAGE_COUNT,
    "enhancePrompt": PROMPT_SETTING
  }
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/MODEL_VERSION:predict" | Select-Object -Expand Content
Com o aprimoramento de comandos ativado, a resposta inclui um campo prompt adicional que mostra o comando aprimorado e a imagem gerada associada:
  {
    "predictions": [
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_1",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_1"
      },
      {
        "mimeType": "MIME_TYPE",
        "prompt": "ENHANCED_PROMPT_2",
        "bytesBase64Encoded": "BASE64_IMG_BYTES_2"
      }
    ]
  }

Por exemplo, a amostra de resposta a seguir é para uma solicitação com "sampleCount": 2 e "prompt": "A raccoon wearing formal clothes, wearing a top hat. Oil painting in the style of Vincent Van Gogh.". A resposta retorna dois objetos de previsão, cada um com o comando aprimorado e os bytes de imagem gerados codificados em base64.

{
  "predictions": [
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh,
        depicting a raccoon adorned in a finely tailored tuxedo, complete with a
        crisp white shirt and a bow tie. The raccoon also sports a classic top
        hat, perched jauntily on its head. The painting uses thick, swirling
        brushstrokes characteristic of van Gogh, with vibrant hues of blue,
        yellow, and green in the background, contrasting with the dark tones of
        the raccoon's attire. The light source is subtly placed, casting a
        dramatic shadow of the raccoon's attire onto the surface it sits upon,
        further enhancing the depth and dimensionality of the composition. The
        overall impression is one of a whimsical and sophisticated character, a
        raccoon elevated to a higher class through its formal attire, rendered
        in van Gogh's iconic style.",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    },
    {
      "mimeType": "image/png",
      "prompt": "An oil painting in the style of Vincent van Gogh featuring
        a raccoon in a dapper suit, complete with a black jacket, crisp white
        shirt, and a black bow tie. The raccoon is wearing a black top hat,
        adding a touch of elegance to its ensemble. The painting is rendered
        with characteristic van Gogh brushwork, utilizing thick, impasto strokes
        of color. The background is a swirl of blues, greens, and yellows,
        creating a vibrant yet slightly chaotic atmosphere that contrasts with
        the raccoon's formal attire. The lighting is dramatic, casting sharp
        shadows and highlighting the textures of the fabric and the raccoon's
        fur, enhancing the sense of realism within the fantastical scene. The
        composition focuses on the raccoon's proud posture, highlighting the
        whimsical contrast of a wild animal dressed in formal attire, captured
        in the unique artistic language of van Gogh. ",
      "bytesBase64Encoded": "BASE64_IMG_BYTES"
    }
  ]
}

A seguir