IA de texto a imagen

Crea y edita imágenes a partir de texto sin escribir ni una sola línea de código

Genera y edita imágenes a partir de descripciones de texto en cuestión de segundos mediante los modelos de generación de imágenes Gemini 3 Pro Image e Imagen con APIs disponibles en los lenguajes de programación Python, Java y Go.

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para generar imágenes y más en Gemini Enterprise Agent Platform.

Información general

¿Qué es la IA de texto a imagen?

La IA de conversión de texto a imagen es un tipo de inteligencia artificial que puede generar y editar imágenes a partir de textos descriptivos. Esta tecnología tiene el potencial de transformar la forma en que interactuamos con el contenido visual y lo creamos. Las herramientas y los recursos de conversión de texto a IA de Google Cloud, como los modelos de IA preentrenados Imagen, Gemini 3 Pro Image y Veo, disponibles en Agent Platform, están diseñados para ayudar a los desarrolladores a implementar fácilmente la generación de texto a imagen en sus aplicaciones.

¿Cómo se utiliza la conversión de texto a imagen en el desarrollo de aplicaciones?

La IA de texto a imagen se puede usar en el desarrollo de aplicaciones para generar prototipos, ilustraciones, datos de pruebas, contenido educativo y visualizaciones con fines de depuración. Agent Platform y la API de Cloud Vision de Google Cloud ofrecen a los desarrolladores acceso a un paquete de funciones de procesamiento de imágenes, como la detección de texto, la detección de objetos y la clasificación de imágenes.Document AI se puede utilizar para extraer texto de documentos escaneados y generar imágenes de descripción de texto.

¿Cómo puedo usar estos modelos de Google?

Puedes acceder a estos modelos de IA de conversión de texto a imagen a través de Agent Platform en Google Cloud o de Google AI Studio. Para utilizar los modelos, solo tienes que proporcionar una orden de texto, seleccionar los parámetros (algunos modelos te permiten seleccionar parámetros que controlan el estilo, la creatividad y la precisión de la imagen generada) y, por último, generar la imagen. 

Cómo funciona

La IA de texto a imagen usa el procesamiento del lenguaje natural (PLN) para convertir la descripción de texto a un formato que pueda leer una máquina. Una vez convertido a un formato legible para máquinas, el modelo de aprendizaje automático se entrena con un conjunto de datos a gran escala de texto e imágenes, aprende a identificar patrones y los utiliza para generar o editar imágenes.

Interfaz de usuario del producto de IA generativa
De texto a imagen: introducción a la generación de imágenes con IA
Usos habituales

Genera imágenes usando IA

Genera imágenes mediante peticiones de texto

Descubre cómo usar la función de generación de texto a imagen de Imagen en Agent Platform y exportar una versión mejorada de la imagen que se genera. Esta guía de inicio rápido te muestra cómo utilizar la generación de imágenes Imagen en la consola de Google Cloud.

imágenes creadas con imagen
Genera imágenes mediante peticiones de texto

Descubre cómo usar la función de generación de texto a imagen de Imagen en Agent Platform y exportar una versión mejorada de la imagen que se genera. Esta guía de inicio rápido te muestra cómo utilizar la generación de imágenes Imagen en la consola de Google Cloud.

imágenes creadas con imagen

Editar imágenes con IA

Fusión de varias imágenes y edición conversacional

Con Gemini, puedes combinar diferentes imágenes en una nueva imagen perfecta. Usa varias imágenes de referencia para crear una sola imagen unificada. También puedes editar imágenes con instrucciones sencillas en lenguaje natural. Puedes hacer cambios con solo mantener una conversación, desde quitar a una persona de una foto de grupo hasta arreglar un pequeño detalle, como una mancha.

Además, Imagen en Agent Platform te permite editar imágenes generadas con Imagen o imágenes que ya tengas. Puedes especificar la parte de la imagen que se va a modificar, además del texto de descripción de las actualizaciones (edición basada en máscaras).

Fusión de varias imágenes y edición conversacional

Con Gemini, puedes combinar diferentes imágenes en una nueva imagen perfecta. Usa varias imágenes de referencia para crear una sola imagen unificada. También puedes editar imágenes con instrucciones sencillas en lenguaje natural. Puedes hacer cambios con solo mantener una conversación, desde quitar a una persona de una foto de grupo hasta arreglar un pequeño detalle, como una mancha.

Además, Imagen en Agent Platform te permite editar imágenes generadas con Imagen o imágenes que ya tengas. Puedes especificar la parte de la imagen que se va a modificar, además del texto de descripción de las actualizaciones (edición basada en máscaras).

Descripciones visuales con IA

Obtén descripciones de imágenes mediante descripciones visuales

Genera descripciones relevantes para las imágenes, como metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.

Interfaz de producto de descripciones de imagen
Obtén descripciones de imágenes mediante descripciones visuales

Genera descripciones relevantes para las imágenes, como metadatos detallados, subtítulos automáticos y descripciones rápidas de productos y recursos visuales.

Interfaz de producto de descripciones de imagen

Empieza tu prueba de concepto

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para generar imágenes y más en Agent Platform

¿Tienes un proyecto de gran envergadura?

Más información sobre los tipos de imágenes que puedes crear

Descubre cómo generar imágenes mediante peticiones de texto

Probar Imagen en Colab

Google Cloud