Genera y edita imágenes a partir de descripciones de texto en cuestión de segundos mediante los modelos de generación de imágenes Gemini 3 Pro Image e Imagen con APIs disponibles en los lenguajes de programación Python, Java y Go.
Los nuevos clientes reciben hasta 300 USD en crédito sin coste para generar imágenes y más en Gemini Enterprise Agent Platform.
Información general
La IA de conversión de texto a imagen es un tipo de inteligencia artificial que puede generar y editar imágenes a partir de textos descriptivos. Esta tecnología tiene el potencial de transformar la forma en que interactuamos con el contenido visual y lo creamos. Las herramientas y los recursos de conversión de texto a IA de Google Cloud, como los modelos de IA preentrenados Imagen, Gemini 3 Pro Image y Veo, disponibles en Agent Platform, están diseñados para ayudar a los desarrolladores a implementar fácilmente la generación de texto a imagen en sus aplicaciones.
La IA de texto a imagen se puede usar en el desarrollo de aplicaciones para generar prototipos, ilustraciones, datos de pruebas, contenido educativo y visualizaciones con fines de depuración. Agent Platform y la API de Cloud Vision de Google Cloud ofrecen a los desarrolladores acceso a un paquete de funciones de procesamiento de imágenes, como la detección de texto, la detección de objetos y la clasificación de imágenes.Document AI se puede utilizar para extraer texto de documentos escaneados y generar imágenes de descripción de texto.
Puedes acceder a estos modelos de IA de conversión de texto a imagen a través de Agent Platform en Google Cloud o de Google AI Studio. Para utilizar los modelos, solo tienes que proporcionar una orden de texto, seleccionar los parámetros (algunos modelos te permiten seleccionar parámetros que controlan el estilo, la creatividad y la precisión de la imagen generada) y, por último, generar la imagen.
Cómo funciona
La IA de texto a imagen usa el procesamiento del lenguaje natural (PLN) para convertir la descripción de texto a un formato que pueda leer una máquina. Una vez convertido a un formato legible para máquinas, el modelo de aprendizaje automático se entrena con un conjunto de datos a gran escala de texto e imágenes, aprende a identificar patrones y los utiliza para generar o editar imágenes.
Descubre cómo usar la función de generación de texto a imagen de Imagen en Agent Platform y exportar una versión mejorada de la imagen que se genera. Esta guía de inicio rápido te muestra cómo utilizar la generación de imágenes Imagen en la consola de Google Cloud.
Descubre cómo usar la función de generación de texto a imagen de Imagen en Agent Platform y exportar una versión mejorada de la imagen que se genera. Esta guía de inicio rápido te muestra cómo utilizar la generación de imágenes Imagen en la consola de Google Cloud.
Con Gemini, puedes combinar diferentes imágenes en una nueva imagen perfecta. Usa varias imágenes de referencia para crear una sola imagen unificada. También puedes editar imágenes con instrucciones sencillas en lenguaje natural. Puedes hacer cambios con solo mantener una conversación, desde quitar a una persona de una foto de grupo hasta arreglar un pequeño detalle, como una mancha.
Además, Imagen en Agent Platform te permite editar imágenes generadas con Imagen o imágenes que ya tengas. Puedes especificar la parte de la imagen que se va a modificar, además del texto de descripción de las actualizaciones (edición basada en máscaras).
Con Gemini, puedes combinar diferentes imágenes en una nueva imagen perfecta. Usa varias imágenes de referencia para crear una sola imagen unificada. También puedes editar imágenes con instrucciones sencillas en lenguaje natural. Puedes hacer cambios con solo mantener una conversación, desde quitar a una persona de una foto de grupo hasta arreglar un pequeño detalle, como una mancha.
Además, Imagen en Agent Platform te permite editar imágenes generadas con Imagen o imágenes que ya tengas. Puedes especificar la parte de la imagen que se va a modificar, además del texto de descripción de las actualizaciones (edición basada en máscaras).
Genera descripciones relevantes para las imágenes, como metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.
Genera descripciones relevantes para las imágenes, como metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.