Para usar o Imagen na Vertex AI, é necessário fornecer uma descrição em texto do que você quer gerar ou editar. Essas descrições são chamadas de solicitações, e elas são a maneira principal de se comunicar com a IA generativa na Vertex AI.
Neste guia, mostramos como modificar partes de um comando de texto para imagem pode produzir resultados diferentes e oferecemos exemplos de imagens que podem ser criadas. Este guia também oferece orientações sobre como editar imagens usando instruções de texto e iteração.
Uso do produto
Para ver os padrões de uso e as restrições de conteúdo associados ao Imagen na Vertex AI, consulte as diretrizes de uso.
Filtragem de conteúdo: texto de entrada, imagens enviadas e imagens geradas
As imagens geradas são filtradas para conteúdo indesejado ou nocivo. Da mesma forma, qualquer entrada que o Imagen na Vertex AI recebe é verificada quanto a conteúdo ofensivo. Isso inclui o comando de texto de entrada e as fotos enviadas no caso de edição de imagens. Para mais informações, consulte IA responsável e diretrizes de uso do Imagen.
Também é possível denunciar suspeitas de abuso do Imagen na Vertex AI ou em qualquer saída gerada que contenha material inadequado ou informações imprecisas usando o formulário Denunciar suspeita de abuso no Google Cloud.
Noções básicas de redação imediatas (assunto, contexto e estilo)
Embora não haja uma única maneira de criar boas solicitações, adicionar algumas palavras-chave e modificadores ajudará você a se aproximar de sua meta final. Os prompts não precisam ser longos ou complexos, mas a maioria deles é descritiva e clara.
Um bom ponto de partida pode ser pensar em assunto, contexto e estilo.

Assunto: a primeira coisa a considerar com qualquer solicitação é o assunto: o objeto, a pessoa, o animal ou o cenário de que você quer uma imagem.
Contexto e plano de fundo: o mais importante é o plano de fundo ou o contexto em que o assunto será colocado. Tente colocar o objeto de várias formas. Por exemplo, um estúdio com fundo branco, ambientes externos ou ambientes internos.
Estilo: por fim, adicione o estilo da imagem que você quer usar. Os estilos podem ser gerais (pintura, fotografia, esboços) ou muito específicos (pintura pastel, desenho a carvão, isométrico 3D).
Depois de escrever uma primeira versão da proposta, refine-a adicionando mais detalhes até chegar à imagem que você quer. A iteração é importante. Comece estabelecendo sua ideia principal e, em seguida, refine e expanda essa ideia até que a imagem gerada esteja próxima da sua visão.
![]() |
![]() |
![]() |
Gravação de comandos da Imagen 3
Visualizar o card do modelo Imagen para geração
O Imagen 3 pode transformar suas ideias em imagens detalhadas, sejam comandos curtos ou longos e detalhados. Refinar sua visão com instruções iterativas, adicionando detalhes até alcançar o resultado perfeito.
Com comandos curtos, você gera uma imagem rapidamente. ![]() |
Com comandos mais longos, você pode adicionar detalhes específicos e criar sua imagem. ![]() |
Outros conselhos para escrever o comando da Imagen 3:
- Use uma linguagem descritiva: use adjetivos e advérbios detalhados para descrever claramente a Imagem 3.
- Forneça contexto: se necessário, inclua informações de contexto para ajudar a IA a entender.
- Cite artistas ou estilos específicos: se você tem uma estética específica em mente, citar artistas ou movimentos artísticos específicos pode ser útil.
- Usar ferramentas de engenharia de comando: considere explorar ferramentas ou recursos de engenharia de comando para refinar os comandos e alcançar resultados ideais.
- Como melhorar os detalhes faciais nas suas imagens pessoais e em grupo:
- Especifique detalhes faciais como foco da foto. Por exemplo, use a palavra "retrato" no comando.
- Considere usar um modelo maior, como o Imagen 3, em vez do Imagen 3 Fast para melhorar os detalhes.
Gerar texto em imagens
A capacidade do Imagen 3 de adicionar texto às imagens abre possibilidades criativas de geração de imagens. Use as orientações a seguir para aproveitar ao máximo esse recurso:
- Iterar com confiança: talvez seja necessário regenerar imagens até alcançar o visual desejado. A integração de texto do Imagen ainda está em evolução, e às vezes várias tentativas produzem os melhores resultados.
- Mantenha o texto curto: limite o texto a 25 caracteres ou menos para uma geração ótima.
Várias frases: teste duas ou três frases diferentes para fornecer mais informações. Evite exceder três frases para composições mais limpas.
Instrução: um cartaz com o texto "Summerland" em negrito como título, abaixo do texto está o slogan "Summer never felt so good" Posicionamento do guia: embora o Imagen possa tentar posicionar o texto conforme indicado, é possível que haja variações ocasionais. Esse recurso está sendo aprimorado constantemente.
Inspire font style: especifique um estilo de fonte geral para influenciar sutilmente as escolhas do Imagen. Não confie na replicação precisa de fontes, mas espere interpretações criativas.
Tamanho da fonte: especifique um tamanho de fonte ou uma indicação geral de tamanho (por exemplo, pequeno, médio, grande) para influenciar a geração do tamanho da fonte.
Parametrização do comando
Para controlar melhor os resultados de saída, pode ser útil parametrizar as entradas no Imagen ao trabalhar com a API Imagen ou o SDK da Vertex AI para Python. Por exemplo, suponha que você queira que os clientes possam gerar logotipos para a empresa e que eles sejam sempre gerados em um plano de fundo de cor sólida. Você também quer limitar as opções que o cliente pode selecionar em um menu.
Neste exemplo, você pode criar uma solicitação parametrizada semelhante a esta:
A {logo_style} logo for a {company_area} company on a solid color background. Include the text {company_name}.
Na interface do usuário personalizada, o cliente pode inserir os parâmetros usando um menu, e o valor escolhido preenche o comando que o Imagen recebe.
Exemplo:
Comando:
A minimalist logo for a health care company on a solid color background. Include the text Journey.
Comando:
A modern logo for a software company on a solid color background. Include the text Silo.
Comando:
A traditional logo for a baking company on a solid color background. Include the text Seed.
Estilo: fotografia
- A solicitação inclui: "Uma foto de..."
Para usar esse estilo, comece usando palavras-chave que informem claramente ao Imagen na Vertex AI que você está procurando uma fotografia. Inicie suas solicitações com "Uma foto de . ". Por exemplo:
![]() |
![]() |
![]() |
Fonte da imagem: cada imagem foi gerada usando o comando de texto correspondente com o modelo Imagen 3.
Estilo: ilustração e arte
- A solicitação inclui: "A painting de...", "Um sketch de..."
Os estilos de arte variam de estilos monocromáticos como esboços a lápis à arte digital realista. Por exemplo, as imagens a seguir usam a mesma solicitação com estilos diferentes:
"Um [art style or creation technique] de um sedan elétrico esportivo angular com arranha-céus em segundo plano"
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
Fonte da imagem: cada imagem foi gerada usando o comando de texto correspondente com o modelo Imagen 2.
Técnicas avançadas para a criação de prompts
Use os exemplos a seguir para criar solicitações mais específicas com base nos atributos: descritores de foto, formas e materiais, movimentos de arte históricos e modificadores de qualidade de imagem.
Modificadores de fotografia
Nos exemplos a seguir, você pode conferir vários modificadores e parâmetros específicos para fotografia.
Proximidade da câmera - Close-up, tirada de longe
Solicitação: uma foto de perto de grãos de café Prompt: uma foto com zoom desativado de um pequeno saco de
grãos de café em uma cozinha bagunçadaPosição da câmera: aéreo, vista de baixo
Instrução: foto aérea de uma cidade com arranha-céus Solicitação: uma foto de um dossel florestal com céu azul abaixo Iluminação: natural, dramático, calor, frio
Prompt: foto de estúdio de uma cadeira moderna, iluminação natural Prompt: foto de estúdio de uma cadeira moderna, iluminação dramática Configurações da câmera — desfoque de movimento, foco suave, bokeh, retrato
Prompt: foto de uma cidade com arranha-céus dentro de um carro com desfoque de movimento Prompt: foco em uma foto de uma ponte em uma cidade urbana à noite Tipos de lentes - 35 mm, 50 mm, olho de peixe, grande angular, macro
Prompt: foto de uma folha, lente macro Instrução: fotografia de rua, cidade de Nova York, lente olho de peixe Tipos de filme - preto e branco, polaroid
Instrução: um retrato polaroide de um cachorro usando óculos escuros Instrução: foto em preto e branco de um cachorro usando óculos escuros
Fonte da imagem: cada imagem foi gerada usando o comando de texto correspondente com o modelo Imagen 3.
Formas e materiais
- A solicitação inclui: "...made of...", "...na forma de..."
Um dos pontos fortes dessa tecnologia é a possibilidade de criar imagens que seriam difíceis ou impossíveis. Por exemplo, é possível recriar o logotipo da empresa em diferentes materiais e texturas.
![]() |
![]() |
![]() |
Fonte da imagem: cada imagem foi gerada usando o comando de texto correspondente com o modelo Imagen 3.
Referências de arte históricas
- A solicitação inclui: "...in the style of..."
Alguns estilos se tornaram icônicos ao longo dos anos. Confira a seguir algumas ideias de pintura histórica ou estilos de arte que você pode testar.
"Gerar uma imagem no estilo de [art period or movement]: um parque eólico"
![]() |
![]() |
![]() |
Fonte da imagem: cada imagem foi gerada usando o comando de texto correspondente com o modelo Imagen 3.
Modificadores de qualidade da imagem
Algumas palavras-chave podem informar ao modelo que você está procurando um recurso de alta qualidade. Veja alguns exemplos de modificadores de qualidade:
- Modificadores gerais: alta qualidade, bonito, estilizado
- Fotos: fotos 4K, HDR e do Studio
- Arte, Ilustração: por um profissional, detalhado
Veja a seguir alguns exemplos de prompts sem modificadores de qualidade e o mesmo com modificadores de qualidade.
![]() |
![]() foto de uma haste de milho tirada por um fotógrafo profissional de |
Fonte da imagem: cada imagem foi gerada usando o comando de texto correspondente com o modelo Imagen 3.
Proporções
A geração de imagens do Imagen 3 permite definir cinco proporções de imagem distintas.
- Quadrado (1:1, padrão): uma foto quadrada padrão. Usos comuns para essa proporção incluem postagens de mídias sociais.
Tela cheia (4:3): essa proporção é usada com frequência em mídias ou filmes. Elas também têm as mesmas dimensões da maioria das TVs e câmeras de formato médio antigas. Ela captura mais da cena horizontalmente (em comparação com 1:1), o que a torna uma proporção preferencial para fotografia.
Instrução: close dos dedos de um músico tocando piano, filme em preto e branco, vintage (proporção de 4:3) Instrução: uma foto profissional de um estúdio que mostra batatas fritas para um restaurante sofisticado, no estilo de uma revista de culinária (proporção de 4:3) ) Tela cheia em modo retrato (3:4): é a proporção de tela cheia girada em 90 graus. Isso permite capturar mais da cena verticalmente em comparação com a proporção de 1:1.
Instrução: uma mulher caminhando, perto de suas botas refletidas em uma poça, grandes montanhas ao fundo, no estilo de um anúncio, ângulos dramáticos (proporção 3:4) Instrução: imagem aérea de um rio fluindo por um vale místico (proporção 3:4) Widescreen (16:9): essa proporção substituiu a de 4:3 e agora é a proporção mais comum para TVs, monitores e telas de smartphones (paisagem). Use essa proporção quando quiser capturar mais do plano de fundo (por exemplo, paisagens panorâmicas).
Instrução: um homem vestindo roupas brancas sentado na praia, de perto, com iluminação de golden hour (proporção de 16:9){101 Retrato (9:16): essa proporção é widescreen, mas girada. Essa é uma proporção relativamente nova que ficou conhecida por apps de vídeos mais curtos (por exemplo, YouTube Shorts). Use essa opção para objetos altos com fortes orientações verticais, como edifícios, árvores, cachoeiras ou outros objetos semelhantes.
Prompt: uma renderização digital de um arranha-céu enorme, moderno, grandioso, épico com um lindo pôr do sol ao fundo (proporção de 9:16){101
Solicitações negativas
Os exemplos anteriores se concentram em escrever solicitações para o que você quer que o Imagen crie, mas também é possível fornecer um prompt negativo com o prompt original para ajudar o produto a gerar ou editar imagens. Essas solicitações negativas podem ser uma ferramenta poderosa que ajuda a especificar quais elementos omitir da imagem. Basta descrever o que você não quer.
Recomendado: descreva claramente o que você não quer ver. Por exemplo, "wall, frame".
Não recomendado: evite linguagem instrutiva ou palavras como "não". Por exemplo, evite frases como "sem paredes" ou "não mostrar paredes".
![]() |
![]() Solicitação negativa: vegetais, plantas, florestas, árvores |
![]() |
![]() Solicitação negativa: neve, geada |
Imagens fotorrealistas
Versões diferentes do modelo de geração de imagens podem oferecer uma combinação de saídas artísticas e fotorrealistas. Use a seguinte palavra nos comandos para gerar uma saída mais fotorrealista com base no assunto que quiser gerar.
Caso de uso | Tipo de lente | Distâncias focais | Mais detalhes |
---|---|---|---|
Pessoas (retratos) | Prime, zoom | 24-35mm | filme em preto e branco, Filme noir, Profundidade de campo, duotone (mencione duas cores) |
Comida, insetos, plantas (objetos, natureza morta) | Macro | 60-105mm | Alto nível de detalhes, foco preciso, iluminação controlada |
Esportes, vida selvagem (movimento) | Zoom telefoto | 100-400mm | Velocidade rápida do obturador, rastreamento de ação ou movimento |
Astronômico, paisagem (amplo angular) | Grande angular | 10-24mm | Longos tempos de exposição, foco nítido, exposição longa, água suave ou nuvens |
Retratos
Caso de uso | Tipo de lente | Distâncias focais | Mais detalhes |
---|---|---|---|
Pessoas (retratos) | Prime, zoom | 24-35mm | filme em preto e branco, Filme noir, Profundidade de campo, duotone (mencione duas cores) |
Usando várias palavras-chave da tabela, o Imagen pode gerar os retratos a seguir.
![]() |
![]() |
![]() |
![]() |
Comando: uma mulher, retrato de 35 mm, duotons azul e cinza
Modelo: Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
Comando: A mulher, retrato de 35 mm, film noir
Modelo: Imagen 3 (imagen-3.0-generate-002
)
Objetos
Caso de uso | Tipo de lente | Distâncias focais | Mais detalhes |
---|---|---|---|
Comida, insetos, plantas (objetos, natureza morta) | Macro | 60-105mm | Alto nível de detalhes, foco preciso, iluminação controlada |
Usando várias palavras-chave da tabela, o Imagen pode gerar as seguintes imagens de objeto.
![]() |
![]() |
![]() |
![]() |
Comando: folha de uma planta de oração, lente macro, 60 mm
Modelo: Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
Comando: um prato de macarrão, lente macro de 100 mm
Modelo: Imagen 3 (imagen-3.0-generate-002
)
Movimento
Caso de uso | Tipo de lente | Distâncias focais | Mais detalhes |
---|---|---|---|
Esportes, vida selvagem (movimento) | Zoom telefoto | 100-400mm | Velocidade rápida do obturador, rastreamento de ação ou movimento |
Usando várias palavras-chave da tabela, o Imagen pode gerar as seguintes imagens em movimento.
![]() |
![]() |
![]() |
![]() |
Comando: um touchdown vencedor, velocidade do obturador rápida e rastreamento de movimento
Modelo: Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
Comando: um cervo correndo na floresta, alta velocidade do obturador, rastreamento de movimento
Modelo: Imagen 3 (imagen-3.0-generate-002
)
Grande angular
Caso de uso | Tipo de lente | Distâncias focais | Mais detalhes |
---|---|---|---|
Astronômico, paisagem (amplo angular) | Grande angular | 10-24mm | Longos tempos de exposição, foco nítido, exposição longa, água suave ou nuvens |
Usando várias palavras-chave da tabela, o Imagen pode gerar as seguintes imagens grande angulares.
![]() |
![]() |
![]() |
![]() |
Comando: uma ampla cordilheira, ângulo amplo de paisagem de 10 mm
Modelo: Imagen 3 (imagen-3.0-generate-002
)
![]() |
![]() |
![]() |
![]() |
Comando: uma foto da lua, fotografia astronômica, ângulo amplo de 10 mm
Modelo: Imagen 3 (imagen-3.0-generate-002
)
A seguir
Confira artigos sobre o Imagen e outras IAs generativas nos produtos da Vertex AI:
- Guia para desenvolvedores sobre como começar a usar o Imagen 3 na Vertex AI
- Novos modelos e ferramentas de mídia generativa criados com criadores para criadores
- Novidades no Gemini: Gems personalizados e geração de imagens aprimorada com o Imagen 3
- Google DeepMind: Imagen 3 — Nosso modelo de qualidade mais alta para conversão de texto em imagem