Pontos fortes e limitações do modelo Gemini

Pontos fortes do modelo Gemini

Veja a seguir alguns dos pontos fortes multimodais com os modelos Gemini 1.0:

Caso de uso Descrição
Busca de informações Combinar conhecimento mundial com informações extraídas de imagens e vídeos.
Reconhecimento de objetos Responder perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos.
Compreensão do conteúdo digital Responder perguntas e extrair informações de vários conteúdos, como infográficos, gráficos, figuras, tabelas e páginas da Web.
Geração de conteúdo estruturado Gerar respostas em formatos como HTML e JSON, com base nas instruções de comando fornecidas.
Legendas / Descrição Gerar descrições de imagens e vídeos com vários níveis de detalhes. Recomendamos começar com os comandos abaixo para imagens/vídeos e repetir a partir disso para conseguir descrições mais específicas.
  • Imagem: "Você pode escrever uma descrição sobre a imagem?"
  • Vídeo: “Você pode escrever uma descrição sobre o que está acontecendo neste vídeo?”
  • Extrapolações Sugerir o que mais você pode ver com base no local, o que pode acontecer em seguida/antes/entre imagens ou vídeos e viabilizar usos criativos, como escrever histórias com base em entradas visuais.

    Limitações do Gemini

    Os modelos Gemini 1.0 têm as seguintes limitações:

    Limitação Descrição
    Raciocínio espacial Pode ter dificuldade com a localização precisa de objetos/textos em imagens. Ele pode ser menos preciso no entendimento de imagens giradas.
    Cálculos Só é possível fornecer números aproximados da contagem de objetos, especialmente para objetos ocultos.
    Entendendo vídeos mais longos Pode oferecer suporte a vídeos como uma modalidade separada (diferente do processamento de imagens individuais). No entanto, o modelo recebe informações de um conjunto não contíguo de frames de imagem, e não do vídeo contínuo em si (e nenhum áudio). O Gemini também não extrai nenhuma informação depois de dois minutos do vídeo. Para melhorar o desempenho em vídeos com conteúdo denso, reduza o vídeo para que o modelo capture uma parte maior do conteúdo.
    Seguir instruções complexas Pode ter dificuldade com tarefas que exigem várias etapas de raciocínio. Considere detalhar as instruções ou fornecer exemplos few-shot para uma melhor orientação.
    Usos médicos Inadequado para interpretar imagens médicas (por exemplo, radiografias e tomografias computadorizadas) ou para fornecer aconselhamento médico.
    Chat com vários turnos (multimodal) Sem treinamento para a funcionalidade do chatbot ou para responder a perguntas em tom de conversa, e a performance é inferior em conversas de vários turnos.

    A seguir

    Para começar, consulte Testar prompts multimodais.