Modelos do Gemini disponíveis

O Gemini é uma família de modelos que processam informações de várias modalidades, incluindo texto, imagens, áudio e vídeo. O Gemini pode explorar e analisar grandes quantidades de informações para entender e processar esses tipos de dados multimodais de maneira integrada. Para mais informações, consulte Visão geral do Gemini.

O Gemini 1.5 Flash é a versão leve, rápida e econômica da família de modelos Gemini. O Gemini 1.5 Pro foi projetado para ser mais robusto.

Nesta página, descrevemos as especificações dos modelos do Gemini que podem ser usados no Google Distributed Cloud (GDC) isolado por air-gap.

Casos de uso do modelo

A tabela a seguir resume os casos de uso de modelos disponíveis na API Gemini.

Modelo Entradas Saídas Caso de uso
Gemini 1.5 Pro Texto, código, imagens, áudio, vídeo, vídeo com áudio, documentos Texto Suporta aplicativos que exigem uma qualidade de resposta aprimorada.
Gemini 1.5 Flash Texto, código, imagens, áudio, vídeo, vídeo com áudio, documentos Texto Oferece velocidade e eficiência para aplicativos econômicos.

As informações a seguir fornecem detalhes sobre cada modelo do Gemini.

Recurso Gemini 1.5 Pro Gemini 1.5 Flash
Descrição Um modelo de uso geral para casos de uso multimodais. Use quando precisar de um modelo que possa lidar com um grande número de solicitações e compreensão de contexto longo. Uma versão leve, rápida e econômica projetada para casos de uso multimodais. Use quando precisar de um modelo que possa lidar com um grande número de solicitações e seja econômico.
Recursos
  • Comandos de texto
  • Comandos multimodais:
    • Imagem
    • Áudio
    • Vídeo
    • Documentos
  • Comandos de texto
  • Comandos multimodais:
    • Imagem
    • Áudio
    • Vídeo
    • Documentos
Janela de contexto Até 32.000 tokens Até 32.000 tokens
Máximo de imagens por comando 100 100
Tamanho máximo da imagem bruta 20 MB 20 MB
Tamanho máximo da imagem codificada em base64 7 MB 7 MB
Número máximo de arquivos de áudio por comando Sem limite Sem limite
Duração máxima do áudio 15 minutos 09 minutos
Máximo de vídeos por comando 10 10
Duração máxima do vídeo (somente frames) 120 segundos 120 segundos
Duração máxima do vídeo (frames e áudio) 100 segundos 100 segundos
Tamanho máximo do arquivo do documento 50 MB 50 MB
Número máximo de arquivos de documento por solicitação 100 100
Número máximo de páginas por documento 100 100

Escolher um modelo e criar comandos

Você precisa escolher o modelo que vai gerar a resposta aos pedidos de geração de conteúdo. O modelo selecionado influencia a saída e afeta o custo.

Os IDs de endpoint do modelo do Gemini no GDC são os seguintes:

Nome ID do endpoint do modelo
Gemini Flash gemini-1.5-flash
Gemini Pro gemini-1.5-pro

Em seguida, é preciso criar comandos para receber saídas de um modelo. Você pode melhorar os resultados fornecendo ao modelo instruções precisas, exemplos e o contexto necessário ou informações especializadas. Para saber mais sobre comandos, consulte Introdução à criação de comandos.