Genera imágenes a partir de descripciones de texto en segundos mediante la generación de imágenes potenciada por IA de Google Cloud con las APIs disponibles en los lenguajes de programación Python, Java y Go.
Los clientes nuevos obtienen hasta $300 en créditos gratuitos para generar imágenes y mucho más con Imagen en Vertex AI.
Descripción general
La IA de texto a imagen es un tipo de Inteligencia Artificial que puede generar imágenes a partir de descripciones de texto. Esta tecnología tiene el potencial de transformar la forma en que interactuamos con el contenido visual y lo creamos. Las herramientas y recursos de conversión de texto a IA de Google Cloud, incluidos modelos de IA previamente entrenados como Imagen, Parti y Muse, disponibles en Vertex AI, están diseñados para ayudar a los desarrolladores a implementar fácilmente la generación de texto a imagen en sus aplicaciones. Además, con AutoML, puedes personalizar modelos de IA para aplicaciones específicas del dominio.
La IA de texto a imagen se puede usar en el desarrollo de aplicaciones para generar maquetas, prototipos, ilustraciones, datos de prueba, contenido educativo y visualizaciones para la depuración. Vertex AI y la API de Cloud Vision de Google Cloud brindan a los desarrolladores acceso a un paquete de capacidades de procesamiento de imágenes, incluidas la detección de texto, la detección de objetos y la clasificación de imágenes.Document AI se puede usar para extraer texto de documentos escaneados con el objetivo de generar imágenes de descripciones de texto.
Imagen, Parti y Muse son modelos clave de texto a imagen. Imagen es un modelo de difusión con un alto grado de fotorrealismo. El modelo de texto a imagen autorregresivo de Pathways (Parti) admite síntesis ricas en contenido que involucran composiciones complejas y conocimiento del mundo. Muse es un modelo Transformer para tener un rendimiento sólido de la generación de imágenes. Y Gemini amplía las posibilidades con un modelo que puede comprender prácticamente cualquier entrada y generar casi cualquier salida, incluidos texto, imágenes, audio, video y código.
Imagen, un modelo de difusión, es ideal para el fotorrealismo con un profundo nivel de comprensión del lenguaje. Parti, un modelo autorregresivo, es ideal para un estilo y un tema coherentes, y para generar imágenes con un estilo particular. Muse, un modelo Transformer, puede generar imágenes con varios objetos y una composición compleja. Cada una ofrece ventajas únicas: Imagen se destaca en fotorrealismo, Parti en contenido enriquecido y Muse en cuanto a velocidad y herramientas de edición. Todos son fáciles de usar y no requieren conocimientos de programación.
Imagen 3 es el modelo de generación de imágenes más reciente de Google. Ofrece una calidad de imagen sobresaliente junto con varias mejoras en comparación con Imagen 2, que incluyen una generación un 40% más rápida para prototipado e iteración; una mejor comprensión y seguimiento de instrucciones; generaciones fotorrealistas, incluidos grupos de personas; y un mayor control sobre la renderización de texto en una imagen.
Imagen 3, que se lanzó en versión preliminar para los clientes de Vertex AI con acceso anticipado, también incluye compatibilidad con varios lenguajes, funciones de seguridad integradas como la marca de agua digital SynthID de Google DeepMind y compatibilidad con varias relaciones de aspecto.
Puedes acceder a estos modelos de IA de texto a imagen a través de Vertex AI en Google Cloud o mediante un proveedor de APIs externo.Para usar los modelos, proporciona una instrucción de texto, selecciona parámetros (algunos modelos te permiten seleccionar parámetros que controlan el estilo, la creatividad y la precisión de la imagen generada) y, por último, genera la imagen.
Cómo funciona
La IA de texto a imagen usa el procesamiento de lenguaje natural (PLN) para convertir la descripción de texto a un formato legible por máquina. Una vez convertido en un formato legible por máquina, el modelo de aprendizaje automático se entrena con un enorme conjunto de datos de imágenes y texto, aprende a identificar patrones y a usarlos para generar imágenes nuevas. La IA de texto a imagen de Google Cloud usa un modelo de aprendizaje profundo llamado Imagen, un modelo de vanguardia que puede generar imágenes fotorrealistas a partir de descripciones de texto.
Usos comunes
Aprende a usar la función de generación de texto a imagen de Imagen en Vertex AI y a exportar una versión ampliada de una imagen generada. En esta guía de inicio rápido, se muestra cómo usar la generación de imágenes de Imagen en la consola de Google Cloud.
Aprende a usar la función de generación de texto a imagen de Imagen en Vertex AI y a exportar una versión ampliada de una imagen generada. En esta guía de inicio rápido, se muestra cómo usar la generación de imágenes de Imagen en la consola de Google Cloud.
Usa Imagen para editar imágenes generadas o existentes. Puedes usar una solicitud de texto para actualizar toda la imagen (edición sin máscara) o especificar parte de la imagen que se modificará además de la descripción de texto de las actualizaciones (edición basada en máscaras).
Usa Imagen para editar imágenes generadas o existentes. Puedes usar una solicitud de texto para actualizar toda la imagen (edición sin máscara) o especificar parte de la imagen que se modificará además de la descripción de texto de las actualizaciones (edición basada en máscaras).