Respuestas multimodales

Gemini 2.0 Flash admite la generación de respuestas en varias modalidades, como texto, voz e imágenes.

Generación de texto

Gemini 2.0 Flash admite la generación de texto con la consola de Google Cloud, la API de REST y los SDK compatibles. Para obtener más información, consulta nuestra guía de generación de texto.

Generación de voz (acceso anticipado o lista de entidades permitidas)

Gemini 2.0 admite una nueva función de generación multimodal: texto a voz. Con la función de texto a voz, puedes pedirle al modelo que genere un resultado de audio de alta calidad que suene como una voz humana (say "hi everyone") y puedes definir mejor el resultado dirigiendo la voz.

Generación de imágenes (acceso anticipado o lista de entidades permitidas)

Gemini 2.0 admite la capacidad de generar texto con imágenes intercaladas. Esto te permite usar Gemini para editar imágenes de forma conversacional o generar resultados multimodales (por ejemplo, una entrada de blog con texto e imágenes en una sola vez). Anteriormente, esto habría requerido unir varios modelos.

La generación de imágenes está disponible como versión experimental privada. Admite las siguientes modalidades y capacidades:

  • Texto a imagen
    • Ejemplo de instrucción: “Genera una imagen de la Torre Eiffel con fuegos artificiales en el fondo”.
  • Texto a imágenes y texto (intercalado)
    • Ejemplo de instrucción: "Genera una receta ilustrada de una paella. Crea imágenes que acompañen al texto mientras generas la receta".
  • De imágenes y texto a imágenes y texto (intercalados)
    • Ejemplo de instrucción: (Con una imagen de una habitación amueblada) “¿Qué otros colores de sofás funcionarían en mi espacio? ¿Puedes actualizar la imagen?”
  • Edición de imágenes (texto e imagen a imagen)
    • Ejemplo de instrucción: “Edita esta imagen para que parezca un dibujo animado”.
    • Ejemplo de instrucción: [imagen de un gato] + [imagen de una almohada] + “Crea un punto cruzado de mi gato en esta almohada”.
  • Edición de imágenes de varios turnos (chat)
    • Ejemplos de instrucciones: [Sube una imagen de un auto azul.] "Convierte este auto en un convertible". “Ahora cambia el color a amarillo”.
  • Marcas de agua
    • Todas las imágenes generadas incluyen una marca de agua de SynthID.

Limitaciones:

  • No se permite la generación de imágenes de personas ni la edición de imágenes subidas de personas.
  • Para obtener el mejor rendimiento, usa los siguientes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • La generación de imágenes no admite entradas de audio ni video.
  • Es posible que la generación de imágenes no siempre active lo siguiente:
    • El modelo solo puede generar texto. Intenta solicitar resultados de imagen de forma explícita (p.ej., “genera una imagen”, “proporciona imágenes a medida que avanzas”, “actualiza la imagen”).
    • Es posible que el modelo deje de generar contenido a mitad del proceso. Vuelve a intentarlo o prueba con una instrucción diferente.