Présentation des modèles multimodaux



Modèles multimodaux

Prompt (Requête) Response (Réponse)

Donne-moi une recette pour ces cookies.


Cookies
**INGRÉDIENTS**
- 1 tasse. (2 briques) beurre doux, ramolli
- 3/4 de tasse de sucre cristallisé
- 3/4 de tasse de cassonade
- 1 cuillère à café d'extrait de vanille
- 2 gros œufs
- 2 tasses 1/4 de farine tous usages
- 1 cuillère à café de levure chimique
- 1 cuillère à café de sel
...

Un modèle multimodal est un modèle capable de traiter des informations provenant de plusieurs modalités, y compris des images, des vidéos et du texte. Par exemple, vous pouvez envoyer au modèle une photo d'un plat de cookies et lui demander de vous donner en donner la recette.

Modèles Gemini

Les modèles Gemini suivants sont disponibles :

  • Gemini 1.5 Pro : (preview) créé pour être multimodal (texte, images, audio, PDF, code et vidéos) et pour évoluer sur un large ensemble de tâches comportant jusqu'à un million de jetons d'entrée.
  • Gemini 1.0 Pro : conçu pour gérer les tâches en langage naturel, le chat textuel et de code multitour, ainsi que la génération de code.
  • Gemini 1.0 Pro Vision : accepte les requêtes multimodales. Vous pouvez inclure du texte, des images et des vidéos dans vos requêtes et obtenir des réponses textuelles ou de code.

Cas d'utilisation de Gemini 1.5 Pro

Gemini 1.5 Pro (preview) accepte la génération de texte à partir d'une invite qui inclut l'une des modalités suivantes dans une invite, ou une combinaison de plusieurs d'entre elles: texte, code, PDF, images, audio, vidéo. Voici quelques exemples de cas d'utilisation :

Cas d'utilisation Description
Synthèse Créez une version plus courte d'un document intégrant des informations pertinentes à partir du texte d'origine. Par exemple, vous pouvez résumer un chapitre d'un manuel. Vous pouvez également créer une description récapitulative du produit à partir d'un long paragraphe décrivant le produit en détail.
Recherche d'informations visuelles Exploitez des connaissances externes associées aux informations extraites de l'image ou de la vidéo d'entrée pour répondre aux questions.
Reconnaissance d'objets Répondez aux questions sur l'identification précise des objets dans les images et les vidéos.
Compréhension de contenu numérique Répondez à des questions et extrayez des informations à partir de contenus visuels comme des infographies, des graphiques, des figures, des tableaux et des pages Web.
Génération de contenu structuré Générez des réponses basées sur des entrées multimodales dans des formats tels que HTML et JSON.
Sous-titrage et description Générez des descriptions d'images et de vidéos avec différents niveaux de détail.
Vidéos longues Vous pouvez traiter des contenus longs, avec jusqu'à un million de jetons pour le texte, le code, les images, la vidéo et l'audio.
Raisonnement Déduisez de manière composée de nouvelles informations sans mémorisation ni récupération.
Audio Analysez les fichiers vocaux pour des synthèses, des transcriptions et des questions/réponses.
Audio et vidéo Synthétisez un fichier vidéo avec du contenu audio et renvoyez des chapitres avec des codes temporels.
Traitement multimodal Traitez simultanément plusieurs types de contenus d'entrée, tels que les contenus vidéo et audio.

Cas d'utilisation de Gemini 1.0 Pro

Gemini 1.0 Pro prend en charge la génération de texte et de code à partir d'une requête textuelle. Voici quelques exemples de cas d'utilisation :

Cas d'utilisation Description
Synthèse Créez une version plus courte d'un document intégrant des informations pertinentes à partir du texte d'origine. Par exemple, vous pouvez résumer un chapitre d'un manuel. Vous pouvez également créer une description récapitulative du produit à partir d'un long paragraphe décrivant le produit en détail.
Systèmes de questions-réponses Obtenez des réponses aux questions sous forme de texte. Par exemple, vous pouvez automatiser la création d'un document de questions fréquentes (FAQ) à partir du contenu de la base de connaissances.
Compréhension de contenu numérique Attribuez un libellé au texte fourni. Par exemple, un libellé peut être appliqué à un texte décrivant son exactitude grammaticale.
Classification Attribuez une étiquette décrivant le texte fourni. Par exemple, appliquez des étiquettes qui indiquent si un bloc de texte est grammaticalement correct.
Recherche d'informations Combiner la connaissance du monde avec des informations extraites des images et des vidéos.
Reconnaissance d'objets Répondez aux questions sur l'identification précise des objets dans les images et les vidéos.
Analyse des sentiments Il s'agit d'une forme de classification qui identifie le sentiment du texte. Le sentiment est transformé en libellé appliquée au texte. Par exemple, le sentiment du texte peut être des polarités comme positives ou négatives, ou des sentiments comme de la colère ou de la satisfaction.
Extraction d'entités Générez des textes en spécifiant un ensemble d'exigences et un contexte. Par exemple, vous pourriez vouloir rédiger un e-mail dans un contexte donné avec un certain ton.
Génération de code Générez du code en fonction d'une description Par exemple, vous pouvez demander au modèle d'écrire une fonction qui vérifie si une année est une année bissextile ou non.

Cas d'utilisation de Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision prend en charge la génération de texte à partir de texte, d'images et de vidéos fournis en entrée. Voici quelques exemples de cas d'utilisation :

Cas d'utilisation Description
Recherche d'informations Combiner la connaissance du monde avec des informations extraites des images et des vidéos.
Reconnaissance d'objets Répondez aux questions sur l'identification précise des objets dans les images et les vidéos.
Compréhension de contenu numérique Répondez aux questions en extrayant des informations à partir de contenus tels que des infographies, des graphiques, des figures, des tableaux et des pages Web.
Génération de contenu structuré Générez des réponses au format HTML et JSON en fonction des instructions fournies dans la requête.
Sous-titrage/description Générez des descriptions d'images et de vidéos avec différents niveaux de détail.
Extrapolation Essayez de deviner ce qui ne figure pas dans une image, ou ce qui se passe avant ou après une vidéo.
Détection d'objets dans une photo Détecte un objet dans une image et renvoie une description textuelle de l'objet.
Renvoyer des informations sur des articles dans une image À partir d'une image contenant plusieurs articles d'épicerie, Gemini 1.0 Pro Vision peut renvoyer une estimation du montant que vous devez payer.
Comprendre les écrans et les interfaces Extrayez des informations à partir d'écrans d'appareils, d'interfaces utilisateur et de mises en page. Par exemple, vous pouvez utiliser une image d'un appareil avec Gemini 1.0 Pro Vision pour obtenir des instructions sur son utilisation.
Comprendre les schémas techniques Déchiffrez un schéma de relation d'entité (ER), comprenez les relations entre les tables, identifiez les exigences d'optimisation dans un environnement spécifique tel que BigQuery.
Faire une recommandation basée sur plusieurs images Vous pouvez utiliser des photos de lunettes de soleil pour obtenir une recommandation quant à la paire la mieux adaptée à votre visage.
Générer une description de vidéo Détectez ce qui est affiché dans une vidéo. Par exemple, si vous créez une vidéo concernant une destination de vacances, vous pouvez obtenir une description de cette destination, les cinq activités à ne pas manquer et des suggestions pour vous y rendre.

Pour en savoir plus sur la conception de requêtes pour différents usages, consultez les pages suivantes :

Consultez également la section Points forts et limites des modèles.

SDK de langage de programmation

L'API Vertex AI Gemini est compatible avec les SDK suivants :

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Quelle est la différence avec l'API Google AI Gemini ?

L'API Vertex AI Gemini et l'API Google AI Gemini vous permettent d'intégrer les fonctionnalités des modèles Gemini dans vos applications. La plate-forme la plus adaptée dépend de vos objectifs.

L'API Vertex AI Gemini est conçue pour les développeurs et les entreprises afin d'être utilisée dans des déploiements à grande échelle. Elle offre des fonctionnalités telles que la sécurité de l'entreprise, la résidence des données, les performances et l'assistance technique. Si vous êtes déjà un client Google Cloud ou si vous déployez des applications à moyenne ou grande échelle, vous êtes au bon endroit.

Si vous êtes un utilisateur, un étudiant ou un développeur qui débute sur Google Cloud, essayez l'API Google AI Gemini, adaptée aux tests, au prototypage et aux petits déploiements. Si vous recherchez une méthode pour utiliser Gemini directement à partir de vos applications mobiles et Web, consultez les SDK de l'IA de Google pour Android, Swift et le Web.

Documentation de l'API Vertex AI Gemini

Sélectionnez l'une des rubriques suivantes pour en savoir plus sur l'API Vertex AI Gemini.

Premiers pas avec l'API Vertex AI Gemini


Migrer vers l'API Vertex AI Gemini


Découvrir comment utiliser les fonctionnalités principales