Présentation des modèles multimodaux



Modèles multimodaux

Prompt (Invite) Response (Réponse)

Donne-moi une recette pour ces cookies.


Cookies
**INGRÉDIENTS**
- 1 tasse. (2 briques) beurre doux, ramolli
- 3/4 de tasse de sucre cristallisé
- 3/4 de tasse de cassonade
- 1 cuillère à café d'extrait de vanille
- 2 gros œufs
- 2 tasses 1/4 de farine tous usages
- 1 cuillère à café de levure chimique
- 1 cuillère à café de sel
...

Un modèle multimodal est un modèle capable de traiter des informations provenant de plusieurs modalités, y compris des images, des vidéos et du texte. Par exemple, vous pouvez envoyer au modèle une photo d'un plat de cookies et lui demander de vous donner en donner la recette.

Modèles Gemini

Les modèles Gemini suivants sont disponibles :

  • Gemini 1.0 Pro : conçu pour gérer les tâches en langage naturel, le chat textuel et de code multitour, ainsi que la génération de code.
  • Gemini 1.0 Pro Vision : accepte les invites multimodales. Vous pouvez inclure du texte, des images et des vidéos dans vos requêtes d'invite et obtenir des réponses textuelles ou de code.

Cas d'utilisation de Gemini 1.0 Pro

Gemini 1.0 Pro prend en charge la génération de texte et de code à partir d'une invite textuelle. Voici quelques exemples de cas d'utilisation :

Cas d'utilisation Description
Synthèse Créez une version plus courte d'un document intégrant des informations pertinentes à partir du texte d'origine. Par exemple, vous pouvez résumer un chapitre d'un manuel. Vous pouvez également créer une description récapitulative du produit à partir d'un long paragraphe décrivant le produit en détail.
Systèmes de questions-réponses Obtenez des réponses aux questions sous forme de texte. Par exemple, vous pouvez automatiser la création d'un document de questions fréquentes (FAQ) à partir du contenu de la base de connaissances.
Compréhension de contenu numérique Attribuez un libellé au texte fourni. Par exemple, un libellé peut être appliqué à un texte décrivant son exactitude grammaticale.
Classification Générez des réponses au format HTML et JSON en fonction des instructions fournies dans l'invite.
Recherche d'informations Combiner la connaissance du monde avec des informations extraites des images et des vidéos.
Reconnaissance d'objets Répondez aux questions sur l'identification précise des objets dans les images et les vidéos.
Analyse des sentiments Il s'agit d'une forme de classification qui identifie le sentiment du texte. Le sentiment est transformé en libellé appliquée au texte. Par exemple, le sentiment du texte peut être des polarités comme positives ou négatives, ou des sentiments comme de la colère ou de la satisfaction.
Extraction d'entités Générez des textes en spécifiant un ensemble d'exigences et un contexte. Par exemple, vous pourriez vouloir rédiger un e-mail dans un contexte donné avec un certain ton.
Génération de code Générez du code en fonction d'une description Par exemple, vous pouvez demander au modèle d'écrire une fonction qui vérifie si une année est une année bissextile ou non.

Cas d'utilisation de Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision prend en charge la génération de texte à partir de texte, d'images et de vidéos fournis en entrée. Voici quelques exemples de cas d'utilisation :

Cas d'utilisation Description
Recherche d'informations Combiner la connaissance du monde avec des informations extraites des images et des vidéos.
Reconnaissance d'objets Répondez aux questions sur l'identification précise des objets dans les images et les vidéos.
Compréhension de contenu numérique Répondez aux questions en extrayant des informations à partir de contenus tels que des infographies, des graphiques, des figures, des tableaux et des pages Web.
Génération de contenu structuré Générez des réponses au format HTML et JSON en fonction des instructions fournies dans l'invite.
Sous-titrage/description Générez des descriptions d'images et de vidéos avec différents niveaux de détail.
Extrapolation Essayez de deviner ce qui ne figure pas dans une image, ou ce qui se passe avant ou après une vidéo.
Détection d'objets dans une photo Détecte un objet dans une image et renvoie une description textuelle de l'objet.
Renvoyer des informations sur des articles dans une image À partir d'une image contenant plusieurs articles d'épicerie, Gemini 1.0 Pro Vision peut renvoyer une estimation du montant que vous devez payer.
Comprendre les écrans et les interfaces Extrayez des informations à partir d'écrans d'appareils, d'interfaces utilisateur et de mises en page. Par exemple, vous pouvez utiliser une image d'un appareil avec Gemini 1.0 Pro Vision pour obtenir des instructions sur son utilisation.
Comprendre les schémas techniques Déchiffrez un schéma de relation d'entité (ER), comprenez les relations entre les tables, identifiez les exigences d'optimisation dans un environnement spécifique tel que BigQuery.
Faire une recommandation basée sur plusieurs images Vous pouvez utiliser des photos de lunettes de soleil pour obtenir une recommandation quant à la paire la mieux adaptée à votre visage.
Générer une description de vidéo Détectez ce qui est affiché dans une vidéo. Par exemple, si vous créez une vidéo concernant une destination de vacances, vous pouvez obtenir une description de cette destination, les cinq activités à ne pas manquer et des suggestions pour vous y rendre.

Pour en savoir plus sur la conception d'invites pour différents usages, consultez les pages suivantes :

Consultez également la section Points forts et limites des modèles.

SDK de langage de programmation

L'API Vertex AI Gemini est compatible avec les SDK suivants :

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Quelle est la différence avec l'API Google AI Gemini ?

L'API Vertex AI Gemini et l'API Google AI Gemini vous permettent d'intégrer les fonctionnalités des modèles Gemini dans vos applications. La plate-forme la plus adaptée dépend de vos objectifs.

L'API Vertex AI Gemini est conçue pour les développeurs et les entreprises afin d'être utilisée dans des déploiements à grande échelle. Elle offre des fonctionnalités telles que la sécurité de l'entreprise, la résidence des données, les performances et l'assistance technique. Si vous êtes déjà un client Google Cloud ou si vous déployez des applications à moyenne ou grande échelle, vous êtes au bon endroit.

Si vous êtes un utilisateur, un étudiant ou un développeur qui débute sur Google Cloud, essayez l'API Google AI Gemini, adaptée aux tests, au prototypage et aux petits déploiements. Si vous recherchez une méthode pour utiliser Gemini directement à partir de vos applications mobiles et Web, consultez les SDK de l'IA de Google pour Android, Swift et le Web.

Documentation de l'API Vertex AI Gemini

Sélectionnez l'une des rubriques suivantes pour en savoir plus sur l'API Vertex AI Gemini.

Premiers pas avec l'API Vertex AI Gemini


Migrer vers l'API Vertex AI Gemini


Découvrir comment utiliser les fonctionnalités principales