Points forts du modèle Gemini
Voici quelques-uns des points forts multimodaux des modèles Gemini 1.0 :
Cas d'utilisation | Description |
---|---|
Recherche d'informations | Combiner la connaissance du monde avec des informations extraites des images et des vidéos. |
Reconnaissance d'objets | Répondez aux questions sur l'identification précise des objets dans les images et les vidéos. |
Compréhension du contenu numérique | Répondre aux questions et extraire des informations à partir de divers contenus tels que des infographies, des graphiques, des figures, des tables et des pages Web. |
Génération de contenu structuré | Générez des réponses au format HTML et JSON en fonction des instructions fournies dans l'invite. |
Sous-titrage/description | Générer des descriptions d'images et de vidéos avec différents niveaux de détail. Nous vous recommandons de commencer à partir des invites suivantes pour les images ou les vidéos, puis de suivre des itérations pour obtenir des descriptions plus spécifiques.
|
Extrapolations | Suggestions d'éléments à afficher en fonction du lieu, de ce qui peut se passer après/avant/entre les images ou les vidéos, et utilisation de créations comme des récits basés sur des entrées visuelles. |
Limites de Gemini
Les modèles Gemini 1.0 sont soumis aux limites suivantes :
Limite | Description |
---|---|
Raisonnement spatial | Il peut avoir des difficultés à localiser précisément les objets/texte dans les images. La précision de l'analyse des images ayant subi une rotation peut être moindre. |
Comptage | Ne peut fournir que des approximations du nombre d'objets, en particulier pour les objets masqués. |
Comprendre les vidéos plus longues | Peut prendre en charge les vidéos sous la forme d'une modalité distincte (différente du traitement d'images individuelles). Cependant, le modèle reçoit les informations d'un ensemble non contigu de cadres d'images, pas la vidéo continue elle-même (et aucun contenu audio). De même, les informations ne sont pas extraites après deux minutes de vidéo. Pour améliorer les performances des vidéos avec les contenus denses, raccourcissez votre vidéo pour que le modèle enregistre une plus grande partie du contenu vidéo. |
Suivre des instructions complexes | Il peut avoir du mal à effectuer plusieurs tâches qui nécessitent plusieurs étapes de raisonnement. Envisagez de décomposer les instructions ou de fournir des exemples few-shot pour de meilleurs conseils. |
Utilisations médicales | N'est pas adapté pour interpréter des images médicales (par exemple, les radiographies et les tomodensitogrammes) ni pour prodiguer des conseils médicaux. |
Chat multitour (multimodal) | Il n'est pas entraîné pour utiliser le chatbot ou pour répondre à des questions de manière conversationnelle, et peut être moins efficace dans les conversations multitours. |
Étapes suivantes
Pour commencer, consultez Tester des requêtes multimode.