Genera y edita imágenes a partir de descripciones de texto en segundos con los modelos de generación de imágenes 2.5 Flash Image e Imagen de Gemini con las APIs disponibles en los lenguajes de programación Python, Java y Go.
Los clientes nuevos obtienen hasta $300 en créditos gratuitos para generar imágenes y mucho más en Vertex AI
Descripción general
La IA de texto a imagen es un tipo de Inteligencia Artificial que puede generar y editar imágenes a partir de descripciones de texto. Esta tecnología tiene el potencial de transformar la forma en que interactuamos con el contenido visual y lo creamos. Las herramientas y los recursos de conversión de texto a IA de Google Cloud, incluidos modelos de IA entrenados previamente como Imagen, Gemini 2.5 Flash Image y Veo (disponibles en Vertex AI) están diseñados para ayudar a los desarrolladores a implementar sin problemas la generación de texto a imagen en sus aplicaciones.
La IA de texto a imagen se puede usar en el desarrollo de aplicaciones para generar maquetas, prototipos, ilustraciones, datos de prueba, contenido educativo y visualizaciones para la depuración. Vertex AI y la API de Cloud Vision de Google Cloud brindan a los desarrolladores acceso a un paquete de capacidades de procesamiento de imágenes, incluidas la detección de texto y de objetos, y la clasificación de imágenes.Document AI se puede usar para extraer texto de documentos escaneados con el objetivo de generar imágenes de descripciones de texto.
Imagen y Gemini 2.5 Flash Image son los modelos clave de texto a imagen de Google.
Imagen: Imagen es un modelo de imagen puro y especializado. Se creó como un motor de difusión, lo que significa que su enfoque principal es generar imágenes de alta calidad, pulidas y fotorrealistas a partir de instrucciones de texto. Su fortaleza radica en "hacer coincidir patrones de texto con píxeles" para crear resultados hermosos y visualmente atractivos.
Gemini 2.5 Flash Image: Este es un modelo de lenguaje grande (LLM) multimodal nativo. A diferencia de los modelos de imagen dedicados, trata las imágenes como otra forma de "lenguaje". Esto significa que se entrenó desde cero para comprender y procesar tanto texto como imágenes en un solo paso unificado. Esta arquitectura desbloquea sus capacidades únicas más allá de la simple generación.
Puedes acceder a estos modelos de IA de texto a imagen a través de Vertex AI en Google Cloud o Google AI Studio.Para usar los modelos, proporciona una instrucción de texto, selecciona parámetros (algunos modelos te permiten seleccionar parámetros que controlan el estilo, la creatividad y la precisión de la imagen generada) y, por último, genera la imagen.
Cómo funciona
La IA de texto a imagen usa el procesamiento de lenguaje natural (PLN) para convertir la descripción de texto a un formato legible por máquina. Una vez convertido en un formato legible por máquina, el modelo de aprendizaje automático se entrena con un enorme conjunto de datos de imágenes y texto, aprende a identificar patrones y a usarlos para generar o editar imágenes. La IA de texto a imagen de Google Cloud usa un modelo de aprendizaje profundo llamado Imagen, un modelo de vanguardia que puede generar imágenes fotorrealistas a partir de descripciones de texto.
Usos comunes
Aprende a usar la función de generación de texto a imagen de Imagen en Vertex AI y a exportar una versión ampliada de una imagen generada. En esta guía de inicio rápido, se muestra cómo usar la generación de imágenes de Imagen en la consola de Google Cloud.
Aprende a usar la función de generación de texto a imagen de Imagen en Vertex AI y a exportar una versión ampliada de una imagen generada. En esta guía de inicio rápido, se muestra cómo usar la generación de imágenes de Imagen en la consola de Google Cloud.
Con Gemini 2.5 Flash Image, puedes combinar diferentes imágenes en una nueva imagen perfecta. Usa varias imágenes de referencia para crear una sola imagen unificada. También puedes editar imágenes con instrucciones sencillas en lenguaje natural. Puedes hacer cambios con una simple conversación, desde quitar a una persona de una foto grupal hasta corregir un pequeño detalle como una mancha.
Además, Imagen en Vertex AI te permite editar imágenes existentes o generadas por Imagen. Puedes especificar una parte de la imagen para modificar, además de una descripción de texto de las actualizaciones (edición basada en máscaras).
Con Gemini 2.5 Flash Image, puedes combinar diferentes imágenes en una nueva imagen perfecta. Usa varias imágenes de referencia para crear una sola imagen unificada. También puedes editar imágenes con instrucciones sencillas en lenguaje natural. Puedes hacer cambios con una simple conversación, desde quitar a una persona de una foto grupal hasta corregir un pequeño detalle como una mancha.
Además, Imagen en Vertex AI te permite editar imágenes existentes o generadas por Imagen. Puedes especificar una parte de la imagen para modificar, además de una descripción de texto de las actualizaciones (edición basada en máscaras).
Genera descripciones relevantes para imágenes, incluidos metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.
Genera descripciones relevantes para imágenes, incluidos metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.
Las marcas de agua digitales se agregan automáticamente a las imágenes que generan ciertos modelos de IA en Vertex AI, como Imagen y Gemini 2.5 Flash Image. Esto se hace con una tecnología creada por Google DeepMind llamada SynthID, que incorpora una marca de agua invisible directamente en los píxeles de la imagen.
Para detectar la marca de agua digital en una imagen en Vertex AI, puedes usar las herramientas de detección integradas. Con Vertex AI Media Studio, puedes subir la imagen que quieres verificar y, si se detecta una marca de agua de SynthID, la imagen mostrará una insignia de "SynthID detected".
Las marcas de agua digitales se agregan automáticamente a las imágenes que generan ciertos modelos de IA en Vertex AI, como Imagen y Gemini 2.5 Flash Image. Esto se hace con una tecnología creada por Google DeepMind llamada SynthID, que incorpora una marca de agua invisible directamente en los píxeles de la imagen.
Para detectar la marca de agua digital en una imagen en Vertex AI, puedes usar las herramientas de detección integradas. Con Vertex AI Media Studio, puedes subir la imagen que quieres verificar y, si se detecta una marca de agua de SynthID, la imagen mostrará una insignia de "SynthID detected".