English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
日本語
한국어

Nous contacter Commencez l'essai gratuit.

Points forts et limites du modèle Gemini

Points forts du modèle Gemini

Voici quelques-uns des points forts multimodaux des modèles Gemini 1.0 :

Cas d'utilisation	Description
Recherche d'informations	Combiner la connaissance du monde avec des informations extraites des images et des vidéos.
Reconnaissance d'objets	Répondez aux questions sur l'identification précise des objets dans les images et les vidéos.
Compréhension du contenu numérique	Répondre aux questions et extraire des informations à partir de divers contenus tels que des infographies, des graphiques, des figures, des tables et des pages Web.
Génération de contenu structuré	Générez des réponses au format HTML et JSON en fonction des instructions fournies dans l'invite.
Sous-titrage/description	Générer des descriptions d'images et de vidéos avec différents niveaux de détail. Nous vous recommandons de commencer à partir des invites suivantes pour les images ou les vidéos, puis de suivre des itérations pour obtenir des descriptions plus spécifiques. Image : "Pouvez-vous écrire une description de l'image ?" Vidéo : "Pouvez-vous écrire une description de ce qui se passe dans cette vidéo ?"
Extrapolations	Suggestions d'éléments à afficher en fonction du lieu, de ce qui peut se passer après/avant/entre les images ou les vidéos, et utilisation de créations comme des récits basés sur des entrées visuelles.

Limites de Gemini

Les modèles Gemini 1.0 sont soumis aux limites suivantes :

Limite	Description
Raisonnement spatial	Il peut avoir des difficultés à localiser précisément les objets/texte dans les images. La précision de l'analyse des images ayant subi une rotation peut être moindre.
Comptage	Ne peut fournir que des approximations du nombre d'objets, en particulier pour les objets masqués.
Comprendre les vidéos plus longues	Peut prendre en charge les vidéos sous la forme d'une modalité distincte (différente du traitement d'images individuelles). Cependant, le modèle reçoit les informations d'un ensemble non contigu de cadres d'images, pas la vidéo continue elle-même (et aucun contenu audio). De même, les informations ne sont pas extraites après deux minutes de vidéo. Pour améliorer les performances des vidéos avec les contenus denses, raccourcissez votre vidéo pour que le modèle enregistre une plus grande partie du contenu vidéo.
Suivre des instructions complexes	Il peut avoir du mal à effectuer plusieurs tâches qui nécessitent plusieurs étapes de raisonnement. Envisagez de décomposer les instructions ou de fournir des exemples few-shot pour de meilleurs conseils.
Utilisations médicales	N'est pas adapté pour interpréter des images médicales (par exemple, les radiographies et les tomodensitogrammes) ni pour prodiguer des conseils médicaux.
Chat multitour (multimodal)	Il n'est pas entraîné pour utiliser le chatbot ou pour répondre à des questions de manière conversationnelle, et peut être moins efficace dans les conversations multitours.

Étapes suivantes

Pour commencer, consultez Tester des requêtes multimode.

Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.

Dernière mise à jour le 2024/03/22 (UTC).