Modelos de Gemini disponibles

Gemini es una familia de modelos que procesan información de múltiples modalidades, como texto, imágenes, audio y vídeo. Gemini puede explorar y analizar grandes cantidades de información para comprender y procesar sin problemas estos tipos de datos multimodales. Para obtener más información, consulta el resumen de Gemini.

Gemini 1.5 Flash es la versión ligera, rápida y rentable de la familia de modelos Gemini. Gemini 1.5 Pro se ha diseñado para ser más robusto.

En esta página se describen las especificaciones de los modelos de Gemini que puedes usar en Google Distributed Cloud (GDC) air-gapped.

Casos prácticos de modelos

En la siguiente tabla se resumen los casos prácticos de los modelos disponibles en la API de Gemini.

Modelo Entradas Resultados Caso práctico
Gemini 1.5 Pro Texto, código, imágenes, audio, vídeo, vídeo con audio y documentos Texto Admite aplicaciones que requieren una calidad de respuesta mejorada.
Gemini 1.5 Flash Texto, código, imágenes, audio, vídeo, vídeo con audio y documentos Texto Ofrece velocidad y eficiencia para aplicaciones rentables.

A continuación, se proporciona información detallada sobre cada modelo de Gemini.

Función Gemini 1.5 Pro Gemini 1.5 Flash
Descripción Un modelo de uso general para casos prácticos multimodales. Úsalo cuando necesites un modelo que pueda gestionar un gran número de solicitudes y comprender contextos largos. Una versión ligera, rápida y rentable diseñada para casos prácticos multimodales. Úsalo cuando necesites un modelo que pueda gestionar un gran número de solicitudes y sea rentable.
Funciones
  • Peticiones de texto
  • Peticiones multimodales:
    • Imagen
    • Audio
    • Vídeo
    • Redactar documentos
  • Peticiones de texto
  • Peticiones multimodales:
    • Imagen
    • Audio
    • Vídeo
    • Redactar documentos
Ventana de contexto Hasta 32.000 tokens Hasta 32.000 tokens
Número máximo de imágenes por petición 100 100
Tamaño máximo de imagen sin procesar 20 MB 20 MB
Tamaño máximo de la imagen codificada en Base64 7 MB 7 MB
Número máximo de archivos de audio por petición Sin límite Sin límite
Duración máxima del audio 15 minutos 09 minutos
Número máximo de vídeos por petición 10 10
Duración máxima del vídeo (solo fotogramas) 120 segundos 120 segundos
Duración máxima del vídeo (fotogramas y audio) 100 segundos 100 segundos
Tamaño máximo del archivo de documento 50 MB 50 MB
Número máximo de archivos de documento por solicitud 100 100
Número máximo de páginas por documento 100 100

Elige un modelo y crea peticiones

Debes elegir el modelo que quieras usar para generar la respuesta a las solicitudes de generación de contenido. El modelo que selecciones influye en la salida y afecta al coste.

Los IDs de los endpoints del modelo Gemini en GDC son los siguientes:

Nombre ID de endpoint de modelo
Gemini Flash gemini-1.5-flash
Gemini Pro gemini-1.5-pro

Después, debes crear peticiones para obtener resultados de un modelo. Puedes mejorar los resultados dando al modelo instrucciones precisas, ejemplos y el contexto o la información especializada necesarios. Para obtener más información sobre las peticiones, consulta el artículo Introducción a las peticiones.