IA de texto a imagen

Crea imágenes a partir de texto sin escribir ni una sola línea de código

Genera imágenes a partir de descripciones de texto en segundos mediante la generación de imágenes potenciada por IA de Google Cloud con las APIs disponibles en los lenguajes de programación Python, Java y Go. 

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para generar imágenes y mucho más con Imagen en Vertex AI. 

Descripción general

¿Qué es la IA de texto a imagen?

La IA de texto a imagen es un tipo de Inteligencia Artificial que puede generar imágenes a partir de descripciones de texto. Esta tecnología tiene el potencial de transformar la forma en que interactuamos con el contenido visual y lo creamos. Las herramientas y recursos de conversión de texto a IA de Google Cloud, incluidos modelos de IA previamente entrenados como Imagen, Parti y Muse, disponibles en Vertex AI, están diseñados para ayudar a los desarrolladores a implementar fácilmente la generación de texto a imagen en sus aplicaciones. Además, con AutoML, puedes personalizar modelos de IA para aplicaciones específicas del dominio.

¿Cómo se usa el texto a imagen en el desarrollo de aplicaciones?

La IA de texto a imagen se puede usar en el desarrollo de aplicaciones para generar maquetas, prototipos, ilustraciones, datos de prueba, contenido educativo y visualizaciones para la depuración. Vertex AI y la API de Cloud Vision de Google Cloud brindan a los desarrolladores acceso a un paquete de capacidades de procesamiento de imágenes, incluidas la detección de texto, la detección de objetos y la clasificación de imágenes.Document AI se puede usar para extraer texto de documentos escaneados con el objetivo de generar imágenes de descripciones de texto.

¿Qué modelos se usan para la generación de texto a imagen?

Imagen, Parti y Muse son modelos clave de texto a imagen. Imagen es un modelo de difusión con un alto grado de fotorrealismo. El modelo de texto a imagen autorregresivo de Pathways (Parti) admite síntesis ricas en contenido que involucran composiciones complejas y conocimiento del mundo. Muse es un modelo Transformer para tener un rendimiento sólido de la generación de imágenes. Y Gemini amplía las posibilidades con un modelo que puede comprender prácticamente cualquier entrada y generar casi cualquier salida, incluidos texto, imágenes, audio, video y código.

¿Qué diferencias hay entre estos modelos?

Imagen, un modelo de difusión, es ideal para el fotorrealismo con un profundo nivel de comprensión del lenguaje. Parti, un modelo autorregresivo, es ideal para un estilo y un tema coherentes, y para generar imágenes con un estilo particular. Muse, un modelo Transformer, puede generar imágenes con varios objetos y una composición compleja. Cada una ofrece ventajas únicas: Imagen se destaca en fotorrealismo, Parti en contenido enriquecido y Muse en cuanto a velocidad y herramientas de edición. Todos son fáciles de usar y no requieren conocimientos de programación.

¿Qué es Imagen 3?

Imagen 3 es el modelo de generación de imágenes más reciente de Google. Ofrece una calidad de imagen sobresaliente junto con varias mejoras en comparación con Imagen 2, que incluyen una generación un 40% más rápida para prototipado e iteración; una mejor comprensión y seguimiento de instrucciones; generaciones fotorrealistas, incluidos grupos de personas; y un mayor control sobre la renderización de texto en una imagen.

Imagen 3, que se lanzó en versión preliminar para los clientes de Vertex AI con acceso anticipado, también incluye compatibilidad con varios lenguajes, funciones de seguridad integradas como la marca de agua digital SynthID de Google DeepMind y compatibilidad con varias relaciones de aspecto.

¿Cómo puedo usar estos modelos de Google?

Puedes acceder a estos modelos de IA de texto a imagen a través de Vertex AI en Google Cloud o mediante un proveedor de APIs externo.Para usar los modelos, proporciona una instrucción de texto, selecciona parámetros (algunos modelos te permiten seleccionar parámetros que controlan el estilo, la creatividad y la precisión de la imagen generada) y, por último, genera la imagen. 

Cómo funciona

La IA de texto a imagen usa el procesamiento de lenguaje natural (PLN) para convertir la descripción de texto a un formato legible por máquina. Una vez convertido en un formato legible por máquina, el modelo de aprendizaje automático se entrena con un enorme conjunto de datos de imágenes y texto, aprende a identificar patrones y a usarlos para generar imágenes nuevas. La IA de texto a imagen de Google Cloud usa un modelo de aprendizaje profundo llamado Imagen, un modelo de vanguardia que puede generar imágenes fotorrealistas a partir de descripciones de texto.

IU del producto de IA generativa
Genera y edita imágenes con Vertex AI Studio

Usos comunes

Genera imágenes con IA

Genera imágenes con mensajes de texto

Aprende a usar la función de generación de texto a imagen de Imagen en Vertex AI y a exportar una versión ampliada de una imagen generada. En esta guía de inicio rápido, se muestra cómo usar la generación de imágenes de Imagen en la consola de Google Cloud.

Comenzar
Imagen generada de un perro leyendo un periódico en el producto Vertex AI

Genera imágenes con mensajes de texto

Aprende a usar la función de generación de texto a imagen de Imagen en Vertex AI y a exportar una versión ampliada de una imagen generada. En esta guía de inicio rápido, se muestra cómo usar la generación de imágenes de Imagen en la consola de Google Cloud.

Comenzar
Imagen generada de un perro leyendo un periódico en el producto Vertex AI

Edita imágenes con IA

Editar imágenes mediante mensajes de texto

Usa Imagen para editar imágenes generadas o existentes. Puedes usar una solicitud de texto para actualizar toda la imagen (edición sin máscara) o especificar parte de la imagen que se modificará además de la descripción de texto de las actualizaciones (edición basada en máscaras).

Comienza a editar imágenes con instrucciones de texto
Edición de imágenes en Vertex AI

Editar imágenes mediante mensajes de texto

Usa Imagen para editar imágenes generadas o existentes. Puedes usar una solicitud de texto para actualizar toda la imagen (edición sin máscara) o especificar parte de la imagen que se modificará además de la descripción de texto de las actualizaciones (edición basada en máscaras).

Comienza a editar imágenes con instrucciones de texto
Edición de imágenes en Vertex AI

Subtítulos visuales con IA

Obtén descripciones de imágenes con subtítulos visuales

Genera descripciones relevantes para imágenes, incluidos metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.

Comienza a generar leyendas para tus imágenes
IU del producto para leyendas de imágenes

Obtén descripciones de imágenes con subtítulos visuales

Genera descripciones relevantes para imágenes, incluidos metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.

Comienza a generar leyendas para tus imágenes
IU del producto para leyendas de imágenes

Comienza tu prueba de concepto

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para generar imágenes y mucho más en Vertex AI

¿Tienes un proyecto grande?

Descubre qué tipos de imágenes puedes crear

Aprende a generar imágenes con instrucciones de texto

Aprende a generar y verificar marcas de agua de imagen

Google Cloud