-
Essayer l'API Gemini
Une fois la configuration de Google Cloud effectuée, essayez des requêtes multimodales dans Vertex AI Studio ou dans un tutoriel de notebook à l'aide du SDK Python ou de l'API REST.
-
Documentation de référence de l'API Vertex AI Gemini
Découvrez les points de terminaison, les paramètres et les valeurs de retour de l'API Vertex AI Gemini.
-
Conception d'invites multimodales
Découvrez les bonnes pratiques de conception de requêtes multimodales et consultez des exemples de requêtes.
Modèles multimodaux
Prompt (Requête) | Response (Réponse) |
Donne-moi une recette pour ces cookies. |
**INGRÉDIENTS** - 1 tasse. (2 briques) beurre doux, ramolli - 3/4 de tasse de sucre cristallisé - 3/4 de tasse de cassonade - 1 cuillère à café d'extrait de vanille - 2 gros œufs - 2 tasses 1/4 de farine tous usages - 1 cuillère à café de levure chimique - 1 cuillère à café de sel ... |
Un modèle multimodal est un modèle capable de traiter des informations provenant de plusieurs modalités, y compris des images, des vidéos et du texte. Par exemple, vous pouvez envoyer au modèle une photo d'un plat de cookies et lui demander de vous donner en donner la recette.
Modèles Gemini
Les modèles Gemini suivants sont disponibles :
- Gemini 1.5 Pro : (preview) créé pour être multimodal (texte, images, audio, PDF, code et vidéos) et pour évoluer sur un large ensemble de tâches comportant jusqu'à un million de jetons d'entrée.
- Gemini 1.0 Pro : conçu pour gérer les tâches en langage naturel, le chat textuel et de code multitour, ainsi que la génération de code.
- Gemini 1.0 Pro Vision : accepte les requêtes multimodales. Vous pouvez inclure du texte, des images et des vidéos dans vos requêtes et obtenir des réponses textuelles ou de code.
Cas d'utilisation de Gemini 1.5 Pro
Gemini 1.5 Pro (preview) accepte la génération de texte à partir d'une invite qui inclut l'une des modalités suivantes dans une invite, ou une combinaison de plusieurs d'entre elles: texte, code, PDF, images, audio, vidéo. Voici quelques exemples de cas d'utilisation :
Cas d'utilisation | Description |
---|---|
Synthèse | Créez une version plus courte d'un document intégrant des informations pertinentes à partir du texte d'origine. Par exemple, vous pouvez résumer un chapitre d'un manuel. Vous pouvez également créer une description récapitulative du produit à partir d'un long paragraphe décrivant le produit en détail. |
Recherche d'informations visuelles | Exploitez des connaissances externes associées aux informations extraites de l'image ou de la vidéo d'entrée pour répondre aux questions. |
Reconnaissance d'objets | Répondez aux questions sur l'identification précise des objets dans les images et les vidéos. |
Compréhension de contenu numérique | Répondez à des questions et extrayez des informations à partir de contenus visuels comme des infographies, des graphiques, des figures, des tableaux et des pages Web. |
Génération de contenu structuré | Générez des réponses basées sur des entrées multimodales dans des formats tels que HTML et JSON. |
Sous-titrage et description | Générez des descriptions d'images et de vidéos avec différents niveaux de détail. |
Vidéos longues | Vous pouvez traiter des contenus longs, avec jusqu'à un million de jetons pour le texte, le code, les images, la vidéo et l'audio. |
Raisonnement | Déduisez de manière composée de nouvelles informations sans mémorisation ni récupération. |
Audio | Analysez les fichiers vocaux pour des synthèses, des transcriptions et des questions/réponses. |
Audio et vidéo | Synthétisez un fichier vidéo avec du contenu audio et renvoyez des chapitres avec des codes temporels. |
Traitement multimodal | Traitez simultanément plusieurs types de contenus d'entrée, tels que les contenus vidéo et audio. |
Cas d'utilisation de Gemini 1.0 Pro
Gemini 1.0 Pro prend en charge la génération de texte et de code à partir d'une requête textuelle. Voici quelques exemples de cas d'utilisation :
Cas d'utilisation | Description |
---|---|
Synthèse | Créez une version plus courte d'un document intégrant des informations pertinentes à partir du texte d'origine. Par exemple, vous pouvez résumer un chapitre d'un manuel. Vous pouvez également créer une description récapitulative du produit à partir d'un long paragraphe décrivant le produit en détail. |
Systèmes de questions-réponses | Obtenez des réponses aux questions sous forme de texte. Par exemple, vous pouvez automatiser la création d'un document de questions fréquentes (FAQ) à partir du contenu de la base de connaissances. |
Compréhension de contenu numérique | Attribuez un libellé au texte fourni. Par exemple, un libellé peut être appliqué à un texte décrivant son exactitude grammaticale. |
Classification | Attribuez une étiquette décrivant le texte fourni. Par exemple, appliquez des étiquettes qui indiquent si un bloc de texte est grammaticalement correct. |
Recherche d'informations | Combiner la connaissance du monde avec des informations extraites des images et des vidéos. |
Reconnaissance d'objets | Répondez aux questions sur l'identification précise des objets dans les images et les vidéos. |
Analyse des sentiments | Il s'agit d'une forme de classification qui identifie le sentiment du texte. Le sentiment est transformé en libellé appliquée au texte. Par exemple, le sentiment du texte peut être des polarités comme positives ou négatives, ou des sentiments comme de la colère ou de la satisfaction. |
Extraction d'entités | Générez des textes en spécifiant un ensemble d'exigences et un contexte. Par exemple, vous pourriez vouloir rédiger un e-mail dans un contexte donné avec un certain ton. |
Génération de code | Générez du code en fonction d'une description Par exemple, vous pouvez demander au modèle d'écrire une fonction qui vérifie si une année est une année bissextile ou non. |
Cas d'utilisation de Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision prend en charge la génération de texte à partir de texte, d'images et de vidéos fournis en entrée. Voici quelques exemples de cas d'utilisation :
Cas d'utilisation | Description |
---|---|
Recherche d'informations | Combiner la connaissance du monde avec des informations extraites des images et des vidéos. |
Reconnaissance d'objets | Répondez aux questions sur l'identification précise des objets dans les images et les vidéos. |
Compréhension de contenu numérique | Répondez aux questions en extrayant des informations à partir de contenus tels que des infographies, des graphiques, des figures, des tableaux et des pages Web. |
Génération de contenu structuré | Générez des réponses au format HTML et JSON en fonction des instructions fournies dans la requête. |
Sous-titrage/description | Générez des descriptions d'images et de vidéos avec différents niveaux de détail. |
Extrapolation | Essayez de deviner ce qui ne figure pas dans une image, ou ce qui se passe avant ou après une vidéo. |
Détection d'objets dans une photo | Détecte un objet dans une image et renvoie une description textuelle de l'objet. |
Renvoyer des informations sur des articles dans une image | À partir d'une image contenant plusieurs articles d'épicerie, Gemini 1.0 Pro Vision peut renvoyer une estimation du montant que vous devez payer. |
Comprendre les écrans et les interfaces | Extrayez des informations à partir d'écrans d'appareils, d'interfaces utilisateur et de mises en page. Par exemple, vous pouvez utiliser une image d'un appareil avec Gemini 1.0 Pro Vision pour obtenir des instructions sur son utilisation. |
Comprendre les schémas techniques | Déchiffrez un schéma de relation d'entité (ER), comprenez les relations entre les tables, identifiez les exigences d'optimisation dans un environnement spécifique tel que BigQuery. |
Faire une recommandation basée sur plusieurs images | Vous pouvez utiliser des photos de lunettes de soleil pour obtenir une recommandation quant à la paire la mieux adaptée à votre visage. |
Générer une description de vidéo | Détectez ce qui est affiché dans une vidéo. Par exemple, si vous créez une vidéo concernant une destination de vacances, vous pouvez obtenir une description de cette destination, les cinq activités à ne pas manquer et des suggestions pour vous y rendre. |
Pour en savoir plus sur la conception de requêtes pour différents usages, consultez les pages suivantes :
- Requêtes multimodales
- Requêtes textuelles
- Requêtes de chat
- Requêtes de chat de code
- Requêtes pour la génération de code
Consultez également la section Points forts et limites des modèles.
SDK de langage de programmation
L'API Vertex AI Gemini est compatible avec les SDK suivants :
Python
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?", img])
Node.js
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
}
Go
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Quelle est la différence avec l'API Google AI Gemini ?
L'API Vertex AI Gemini et l'API Google AI Gemini vous permettent d'intégrer les fonctionnalités des modèles Gemini dans vos applications. La plate-forme la plus adaptée dépend de vos objectifs.
L'API Vertex AI Gemini est conçue pour les développeurs et les entreprises afin d'être utilisée dans des déploiements à grande échelle. Elle offre des fonctionnalités telles que la sécurité de l'entreprise, la résidence des données, les performances et l'assistance technique. Si vous êtes déjà un client Google Cloud ou si vous déployez des applications à moyenne ou grande échelle, vous êtes au bon endroit.
Si vous êtes un utilisateur, un étudiant ou un développeur qui débute sur Google Cloud, essayez l'API Google AI Gemini, adaptée aux tests, au prototypage et aux petits déploiements. Si vous recherchez une méthode pour utiliser Gemini directement à partir de vos applications mobiles et Web, consultez les SDK de l'IA de Google pour Android, Swift et le Web.
Documentation de l'API Vertex AI Gemini
Sélectionnez l'une des rubriques suivantes pour en savoir plus sur l'API Vertex AI Gemini.
Premiers pas avec l'API Vertex AI Gemini
-
Lancez-vous dans Google Cloud
Si vous débutez sur Google Cloud, suivez les étapes de configuration décrites sur cette page pour démarrer rapidement.
-
Classes du SDK Python pour l'API Gemini
Découvrez les classes fournies par le SDK Python pour l'API Vertex AI Gemini, y compris les attributs, les méthodes et les exemples d'utilisation.
-
Documentation de référence sur le SDK Python
Consultez la documentation de référence complète sur l'IA générative pour le SDK Vertex AI pour Python.
Migrer vers l'API Vertex AI Gemini
-
Migrer de l'IA de Google vers Vertex AI
Découvrez comment migrer votre code Python de l'API Google AI Gemini vers l'API Vertex AI Gemini.
-
Migrer de l'API PaLM vers l'API Gemini
Découvrez comment migrer votre code Python de l'API Vertex AI PaLM vers l'API Vertex AI Gemini.
Découvrir comment utiliser les fonctionnalités principales
-
Envoyer des requêtes d'invites multimodales
Apprenez à envoyer des requêtes d'invites multimodales à l'aide de la console Cloud, du SDK Python ou de l'API REST.
-
Requêtes "Envoyer des invites de chat"
Découvrez comment envoyer des requêtes de chat à tour unique et multitour à l'aide de la console Cloud, du SDK Python ou de l'API REST.
-
Appel de fonction
Découvrez comment obtenir du modèle des sorties JSON pour appeler des fonctions externes.