Modelos de Gemini disponibles

Gemini es una familia de modelos que procesan información de múltiples modalidades, como texto, imágenes, audio y video. Gemini puede explorar y analizar grandes cantidades de información para comprender y procesar sin problemas estos tipos de datos multimodales. Para obtener más información, consulta la Descripción general de Gemini.

Gemini 1.5 Flash es la versión ligera, rápida y rentable de la familia de modelos de Gemini. Gemini 1.5 Pro está diseñado para ser más sólido.

En esta página, se describen las especificaciones de los modelos de Gemini que puedes usar en Google Distributed Cloud (GDC) aislado.

Casos de uso del modelo

En la siguiente tabla, se resumen los casos de uso de los modelos disponibles en la API de Gemini.

Modelo Entradas Resultados Caso práctico
Gemini 1.5 Pro Texto, código, imágenes, audio, video, video con audio, documentos Texto Admite aplicaciones que requieren una calidad de respuesta mejorada.
Gemini 1.5 Flash Texto, código, imágenes, audio, video, video con audio, documentos Texto Proporciona velocidad y eficiencia para aplicaciones rentables.

En la siguiente información, se proporcionan detalles sobre cada modelo de Gemini.

Función Gemini 1.5 Pro Gemini 1.5 Flash
Descripción Es un modelo de uso general para casos de uso multimodales. Úsalo cuando necesites un modelo que pueda controlar una gran cantidad de solicitudes y comprender el contexto extenso. Es una versión ligera, rápida y rentable diseñada para casos de uso multimodales. Úsalo cuando necesites un modelo que pueda controlar una gran cantidad de solicitudes y sea rentable.
Funciones
  • Instrucciones de texto
  • Instrucciones multimodales:
    • Imagen
    • Audio
    • Video
    • Documentos
  • Instrucciones de texto
  • Instrucciones multimodales:
    • Imagen
    • Audio
    • Video
    • Documentos
Ventana de contexto Hasta 32,000 tokens Hasta 32,000 tokens
Cantidad máxima de imágenes por instrucción 100 100
Tamaño máximo de la imagen sin formato 20 MB 20 MB
Tamaño máximo de la imagen codificada en base64 7 MB 7 MB
Cantidad máxima de archivos de audio por instrucción Sin límite Sin límite
Longitud máxima del audio 15 minutos 09 minutos
Cantidad máxima de videos por instrucción 10 10
Duración máxima del video (solo fotogramas) 120 segundos 120 segundos
Duración máxima del video (fotogramas y audio) 100 segundos 100 segundos
Tamaño máximo del archivo del documento 50 MB 50 MB
Cantidad máxima de archivos de documentos por solicitud 100 100
Cantidad máxima de páginas por documento 100 100

Elige un modelo y crea instrucciones

Debes elegir el modelo que deseas que genere la respuesta a las solicitudes de generación de contenido. El modelo que selecciones influye en el resultado y afecta el costo.

Los IDs de los extremos del modelo de Gemini en GDC son los siguientes:

Nombre ID del extremo del modelo
Gemini Flash gemini-1.5-flash
Gemini Pro gemini-1.5-pro

Luego, debes crear instrucciones para obtener resultados de un modelo. Puedes mejorar los resultados brindándole al modelo instrucciones precisas, ejemplos y el contexto necesario, o bien información especializada. Para obtener más información sobre las instrucciones, consulta Introducción a la creación de instrucciones.