Gere e edite imagens com base em descrições de texto em segundos usando os modelos de geração de imagens Gemini 2.5 Flash Image e Imagen com APIs disponíveis nas linguagens de programação Python, Java e Go.
Clientes novos ganham até US$ 300 em créditos para gerar imagens e muito mais na Vertex AI
Visão geral
A IA de texto para imagem é um tipo de inteligência artificial capaz de gerar e editar imagens a partir de descrições de texto. Essa tecnologia tem o potencial de mudar a forma como criamos e interagimos com os conteúdos visuais. As ferramentas e os recursos de conversão de texto em IA do Google Cloud, incluindo modelos de IA pré-treinados, como Imagen, Gemini 2.5 Flash Image e Veo, disponíveis na Vertex AI, foram projetados para ajudar os desenvolvedores a implementar facilmente a geração de texto para imagem nos seus aplicativos.
A IA de texto para imagem pode ser usada no desenvolvimento de aplicativos para gerar maquetes, protótipos, ilustrações, dados de teste, conteúdo educacional e visualizações para depuração. A Vertex AI e a API Cloud Vision do Google Cloud oferecem aos desenvolvedores acesso a um pacote de recursos de processamento de imagens, incluindo detecção de texto, detecção de objetos e classificação de imagens.A Document AI pode ser usada para extrair texto de documentos digitalizados e gerar imagens descritivas de texto.
Imagen e Gemini 2.5 Flash Image são os principais modelos de conversão de texto em imagem do Google.
Imagen: o Imagen é um modelo especializado e puramente de imagens. Ele foi criado como um mecanismo de difusão, o que significa que o foco principal é gerar imagens de alta qualidade, refinadas e fotorrealistas a partir de comandos de texto. A força dele está em "combinar texto com pixels" para criar resultados bonitos e visualmente atraentes.
Gemini 2.5 Flash Image: este é um modelo de linguagem grande (LLM) nativamente multimodal. Ao contrário de um modelo de imagem dedicado, ele trata as imagens como outra forma de "linguagem". Isso significa que ele foi treinado do zero para entender e processar texto e imagens em uma única etapa unificada. Essa arquitetura é o que possibilita os recursos exclusivos além da geração simples.
É possível acessar esses modelos de IA de texto para imagem usando a Vertex AI no Google Cloud ou o Google AI Studio.Para usar os modelos, basta fornecer um comando de texto, selecionar parâmetros (alguns modelos permitem selecionar parâmetros que controlam o estilo, a criatividade e a precisão da imagem gerada) e, por fim, gerar a imagem.
Como funciona
A IA de texto em imagem usa o processamento de linguagem natural (PLN) para converter a descrição do texto em um formato legível por máquina. Depois de convertido para um formato legível por máquina, o modelo de machine learning é treinado com um enorme conjunto de dados de texto e imagens, aprende a identificar padrões e os usa para gerar ou editar imagens. A IA de texto em imagem do Google Cloud usa um modelo de aprendizado profundo chamado Imagen, um modelo de última geração que pode gerar imagens fotorrealistas a partir de descrições em texto.
Usos comuns
Saiba como usar o recurso de geração de texto para imagem do Imagen na Vertex AI e exportar uma versão aprimorada de uma imagem gerada. Neste guia de início rápido, mostramos como usar a geração de imagens do Imagen no console do Google Cloud.
Saiba como usar o recurso de geração de texto para imagem do Imagen na Vertex AI e exportar uma versão aprimorada de uma imagem gerada. Neste guia de início rápido, mostramos como usar a geração de imagens do Imagen no console do Google Cloud.
Com o Gemini 2.5 Flash Image, você pode combinar diferentes imagens em um novo visual perfeito. Use várias imagens de referência para criar uma única imagem unificada. Você também pode editar imagens com instruções simples em linguagem natural. Remova uma pessoa de uma foto em grupo ou corrija um pequeno detalhe, como uma mancha, com uma conversa simples.
Além disso, o Imagen na Vertex AI permite editar imagens geradas pelo Imagen ou imagens atuais. É possível especificar parte da imagem a ser modificada, além de uma descrição em texto das atualizações (edição da base de máscara).
Com o Gemini 2.5 Flash Image, você pode combinar diferentes imagens em um novo visual perfeito. Use várias imagens de referência para criar uma única imagem unificada. Você também pode editar imagens com instruções simples em linguagem natural. Remova uma pessoa de uma foto em grupo ou corrija um pequeno detalhe, como uma mancha, com uma conversa simples.
Além disso, o Imagen na Vertex AI permite editar imagens geradas pelo Imagen ou imagens atuais. É possível especificar parte da imagem a ser modificada, além de uma descrição em texto das atualizações (edição da base de máscara).
Gere descrições relevantes para imagens, incluindo metadados detalhados, legendagem automática e descrições rápidas de produtos e recursos visuais.
Gere descrições relevantes para imagens, incluindo metadados detalhados, legendagem automática e descrições rápidas de produtos e recursos visuais.
A marca-d'água digital é adicionada automaticamente às imagens geradas por alguns modelos de IA na Vertex AI, como o Imagen e o Gemini 2.5 Flash Image. Isso é feito usando uma tecnologia criada pelo Google Deepmind chamada SynthID, que incorpora uma marca-d'água invisível diretamente nos pixels da imagem.
Para detectar a marca-d'água digital em uma imagem na Vertex AI, você pode usar as ferramentas de detecção integradas. Com o Vertex AI Media Studio, basta fazer upload da imagem que você quer verificar. Se uma marca-d'água do SynthID for detectada, a imagem vai exibir o selo "SynthID detectado".
A marca-d'água digital é adicionada automaticamente às imagens geradas por alguns modelos de IA na Vertex AI, como o Imagen e o Gemini 2.5 Flash Image. Isso é feito usando uma tecnologia criada pelo Google Deepmind chamada SynthID, que incorpora uma marca-d'água invisível diretamente nos pixels da imagem.
Para detectar a marca-d'água digital em uma imagem na Vertex AI, você pode usar as ferramentas de detecção integradas. Com o Vertex AI Media Studio, basta fazer upload da imagem que você quer verificar. Se uma marca-d'água do SynthID for detectada, a imagem vai exibir o selo "SynthID detectado".