Genera imágenes a partir de descripciones de texto en cuestión de segundos mediante la generación de imágenes basada en IA de Google Cloud con APIs disponibles en los lenguajes de programación Python, Java y Go.
Los nuevos clientes reciben hasta 300 USD en crédito gratis para generar imágenes y más con Imagen en Vertex AI.
Información general
La IA de conversión de texto a imagen es un tipo de inteligencia artificial que puede generar imágenes a partir de textos descriptivos. Esta tecnología tiene el potencial de transformar la forma en que interactuamos con el contenido visual y lo creamos. Las herramientas y los recursos de conversión de texto a IA de Google Cloud, como los modelos de IA preentrenados como Imagen, Parti y Muse, disponibles en Vertex AI, están diseñados para ayudar a los desarrolladores a implementar fácilmente la generación de texto a imagen en sus aplicaciones. Además, AutoML te permite personalizar modelos de IA para aplicaciones específicas de distintos dominios.
La IA de texto a imagen se puede usar en el desarrollo de aplicaciones para generar prototipos, ilustraciones, datos de pruebas, contenido educativo y visualizaciones con fines de depuración. Vertex AI y la API de Cloud Vision de Google Cloud ofrecen a los desarrolladores acceso a un paquete de funciones de procesamiento de imágenes, como la detección de texto, la detección de objetos y la clasificación de imágenes.Document AI se puede utilizar para extraer texto de documentos escaneados y generar imágenes de descripción de texto.
Imagen, Parti y Muse son modelos clave de texto a imagen. Imagen es un modelo de difusión con un alto grado de fotorrealismo. El modelo Pathways Autoregressive Text-to-Image (Parti) admite la síntesis de mucho contenido que implique composiciones complejas y conocimiento del mundo. Muse es un modelo Transformer para obtener un alto rendimiento de generación de imágenes. Gemini amplía todo lo que se puede hacer con un modelo que puede entender prácticamente cualquier entrada y generar casi cualquier salida, como texto, imágenes, audio, vídeo y código.
Imagen, un modelo de difusión, es perfecto para el fotorrealismo gracias a su alto nivel de comprensión del lenguaje. Parti, un modelo autoregresivo, es ideal para que el estilo y el tema sean coherentes y para generar imágenes de un estilo concreto. Muse, un modelo Transformer, puede generar imágenes con varios objetos y una composición compleja. Cada uno ofrece distintos puntos fuertes: Imagen destaca en fotorrealismo, Parti en contenido enriquecido y Muse en herramientas de edición y velocidad. Son fáciles de usar y no requieren conocimientos de programación.
Imagen 3 es el modelo de generación de imágenes más reciente de Google. Ofrece una calidad de imagen excepcional junto con varias mejoras con respecto a Imagen 2, como una generación de imágenes más de un 40% más rápida que permite crear prototipos e iterar rápidamente; mejor comprensión de la petición y seguimiento de instrucciones; generaciones fotorrealistas, incluidos grupos de personas; y un mayor control sobre la representación del texto en una imagen.
Imagen 3, que estará disponible en versión preliminar para clientes de Vertex AI con acceso anticipado, incluye compatibilidad con varios idiomas, funciones de seguridad integradas, como la marca de agua digital SynthID de Google DeepMind, y compatibilidad con varias relaciones de aspecto.
Puedes acceder a estos modelos de IA de conversión de texto a imagen a través de Vertex AI en Google Cloud, o mediante un proveedor de APIs externo.Para utilizar los modelos, solo tienes que proporcionar una orden de texto, seleccionar los parámetros (algunos modelos te permiten seleccionar parámetros que controlan el estilo, la creatividad y la precisión de la imagen generada) y, por último, generar la imagen.
Cómo funciona
La IA de conversión de texto a imagen usa el procesamiento del lenguaje natural (PLN) para convertir la descripción de texto a un formato que pueda leer una máquina. Una vez convertido a un formato legible para máquinas, el modelo de aprendizaje automático se entrena con un conjunto de datos a gran escala de texto e imágenes, aprende a identificar patrones y los utiliza para generar nuevas imágenes. La IA de conversión de texto a imagen de Google Cloud utiliza un modelo de aprendizaje profundo llamado Imagen, un modelo de última generación que puede generar imágenes fotorrealistas a partir de descripciones de texto.
Usos habituales
Descubre cómo usar la función de generación de texto a imagen de Imagen en Vertex AI y exportar una versión mejorada de la imagen que se genera. Esta guía de inicio rápido te muestra cómo utilizar la generación de imágenes Imagen en la consola de Google Cloud.
Descubre cómo usar la función de generación de texto a imagen de Imagen en Vertex AI y exportar una versión mejorada de la imagen que se genera. Esta guía de inicio rápido te muestra cómo utilizar la generación de imágenes Imagen en la consola de Google Cloud.
Utiliza Imagen para editar las imágenes generadas o actuales. Puedes utilizar una orden de texto para actualizar toda la imagen (edición sin máscara), o bien puedes especificar la parte de la imagen que se va a modificar, además del texto de descripción de las actualizaciones (edición basada en máscaras).
Utiliza Imagen para editar las imágenes generadas o actuales. Puedes utilizar una orden de texto para actualizar toda la imagen (edición sin máscara), o bien puedes especificar la parte de la imagen que se va a modificar, además del texto de descripción de las actualizaciones (edición basada en máscaras).