Gemini 2.0 Flash admite la generación de respuestas en varias modalidades, como texto, voz e imágenes.
Generación de texto
Gemini 2.0 Flash admite la generación de texto con la consola de Google Cloud, la API de REST y los SDK compatibles. Para obtener más información, consulta nuestra guía de generación de texto.
Generación de voz (acceso anticipado o lista de entidades permitidas)
Gemini 2.0 admite una nueva función de generación multimodal: texto a voz.
Con la función de texto a voz, puedes pedirle al modelo que genere un resultado de audio de alta calidad que suene como una voz humana (say "hi everyone"
) y puedes definir mejor el resultado dirigiendo la voz.
Generación de imágenes (acceso anticipado o lista de entidades permitidas)
Gemini 2.0 admite la capacidad de generar texto con imágenes intercaladas. Esto te permite usar Gemini para editar imágenes de forma conversacional o generar resultados multimodales (por ejemplo, una entrada de blog con texto e imágenes en una sola vez). Anteriormente, esto habría requerido unir varios modelos.
La generación de imágenes está disponible como versión experimental privada. Admite las siguientes modalidades y capacidades:
- Texto a imagen
- Ejemplo de instrucción: “Genera una imagen de la Torre Eiffel con fuegos artificiales en el fondo”.
- Texto a imágenes y texto (intercalado)
- Ejemplo de instrucción: "Genera una receta ilustrada de una paella. Crea imágenes que acompañen al texto mientras generas la receta".
- De imágenes y texto a imágenes y texto (intercalados)
- Ejemplo de instrucción: (Con una imagen de una habitación amueblada) “¿Qué otros colores de sofás funcionarían en mi espacio? ¿Puedes actualizar la imagen?”
- Edición de imágenes (texto e imagen a imagen)
- Ejemplo de instrucción: “Edita esta imagen para que parezca un dibujo animado”.
- Ejemplo de instrucción: [imagen de un gato] + [imagen de una almohada] + “Crea un punto cruzado de mi gato en esta almohada”.
- Edición de imágenes de varios turnos (chat)
- Ejemplos de instrucciones: [Sube una imagen de un auto azul.] "Convierte este auto en un convertible". “Ahora cambia el color a amarillo”.
- Marcas de agua
- Todas las imágenes generadas incluyen una marca de agua de SynthID.
Limitaciones:
- No se permite la generación de imágenes de personas ni la edición de imágenes subidas de personas.
- Para obtener el mejor rendimiento, usa los siguientes idiomas: EN, es-MX, ja-JP, zh-CN, hi-IN.
- La generación de imágenes no admite entradas de audio ni video.
- Es posible que la generación de imágenes no siempre active lo siguiente:
- El modelo solo puede generar texto. Intenta solicitar resultados de imagen de forma explícita (p.ej., “genera una imagen”, “proporciona imágenes a medida que avanzas”, “actualiza la imagen”).
- Es posible que el modelo deje de generar contenido a mitad del proceso. Vuelve a intentarlo o prueba con una instrucción diferente.