Pontos fortes do modelo Gemini
Veja a seguir alguns dos pontos fortes multimodais com os modelos Gemini 1.0:
Caso de uso | Descrição |
---|---|
Busca de informações | Combinar conhecimento mundial com informações extraídas de imagens e vídeos. |
Reconhecimento de objetos | Responder perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos. |
Compreensão do conteúdo digital | Responder perguntas e extrair informações de vários conteúdos, como infográficos, gráficos, figuras, tabelas e páginas da Web. |
Geração de conteúdo estruturado | Gerar respostas em formatos como HTML e JSON, com base nas instruções de comando fornecidas. |
Legendas / Descrição | Gerar descrições de imagens e vídeos com vários níveis de detalhes. Recomendamos começar com os comandos abaixo para imagens/vídeos e repetir a partir disso para conseguir descrições mais específicas.
|
Extrapolações | Sugerir o que mais você pode ver com base no local, o que pode acontecer em seguida/antes/entre imagens ou vídeos e viabilizar usos criativos, como escrever histórias com base em entradas visuais. |
Limitações do Gemini
Os modelos Gemini 1.0 têm as seguintes limitações:
Limitação | Descrição |
---|---|
Raciocínio espacial | Pode ter dificuldade com a localização precisa de objetos/textos em imagens. Ele pode ser menos preciso no entendimento de imagens giradas. |
Cálculos | Só é possível fornecer números aproximados da contagem de objetos, especialmente para objetos ocultos. |
Entendendo vídeos mais longos | Pode oferecer suporte a vídeos como uma modalidade separada (diferente do processamento de imagens individuais). No entanto, o modelo recebe informações de um conjunto não contíguo de frames de imagem, e não do vídeo contínuo em si (e nenhum áudio). O Gemini também não extrai nenhuma informação depois de dois minutos do vídeo. Para melhorar o desempenho em vídeos com conteúdo denso, reduza o vídeo para que o modelo capture uma parte maior do conteúdo. |
Seguir instruções complexas | Pode ter dificuldade com tarefas que exigem várias etapas de raciocínio. Considere detalhar as instruções ou fornecer exemplos few-shot para uma melhor orientação. |
Usos médicos | Inadequado para interpretar imagens médicas (por exemplo, radiografias e tomografias computadorizadas) ou para fornecer aconselhamento médico. |
Chat com vários turnos (multimodal) | Sem treinamento para a funcionalidade do chatbot ou para responder a perguntas em tom de conversa, e a performance é inferior em conversas de vários turnos. |
A seguir
Para começar, consulte Testar prompts multimodais.