-
Essayez l'API Gemini dans Vertex AI.
Commencez par créer un compte Google Cloud. De plus, les nouveaux clients bénéficient de 300 $ de crédits gratuits pour découvrir ce que Gemini peut faire.
-
Documentation de référence du SDK Python pour l'API Gemini dans Vertex AI
Consultez la documentation de référence complète sur l'IA générative pour le SDK Python pour Vertex AI.
-
Conception d'invites multimodales
Découvrez les bonnes pratiques de conception de requêtes multimodales et consultez des exemples de requêtes.
Modèles multimodaux Gemini
Un modèle multimodal est un modèle capable de traiter des informations provenant de plusieurs modalités, y compris des images, des vidéos et du texte. Par exemple, vous pouvez envoyer au modèle une photo d'un plat de cookies et lui demander de vous donner en donner la recette.
Modèles Gemini
Les modèles Gemini suivants sont disponibles :
- Gemini 1.5 Flash : modèle multimodal Gemini le plus rapide et le plus économique. Il est conçu pour les tâches à fort volume et à faible coût, ainsi que pour les applications sensibles à la latence. Étant donné que Gemini 1.5 Flash est plus réactif que d'autres modèles plus onéreux, il s'agit d'une bonne option pour la création d'assistants de chat et d'applications de génération de contenu à la demande.
- Gemini 1.5 Pro : créé pour être multimodal (texte, images, audio, PDF, code et vidéos) et pour évoluer sur un large ensemble de tâches comportant jusqu'à un million de jetons d'entrée.
- Gemini 1.0 Pro : conçu pour gérer les tâches en langage naturel, le chat textuel et de code multitour, ainsi que la génération de code.
- Gemini 1.0 Pro Vision : accepte les requêtes multimodales. Vous pouvez inclure du texte, des images et des vidéos dans vos requêtes et obtenir des réponses textuelles ou de code.
Cas d'utilisation de Flash Gemini 1.5 Pro et Gemini 1.5
Gemini 1.5 Pro et Gemini 1.5 Flash permettent de générer du texte à partir d'une requête qui inclut l'une ou une combinaison des modalités suivantes dans une requête : texte, code, PDF, images, audio, vidéo. Voici quelques exemples de cas d'utilisation :
Cas d'utilisation | Description |
---|---|
Synthèse | Créez une version plus courte d'un document intégrant des informations pertinentes à partir du texte d'origine. Par exemple, vous pouvez résumer un chapitre d'un manuel. Vous pouvez également créer une description récapitulative du produit à partir d'un long paragraphe décrivant le produit en détail. |
Recherche d'informations visuelles | Utiliser des connaissances externes combinées à des informations extraites de l'image ou de la vidéo d'entrée pour répondre aux questions |
Reconnaissance d'objets | Répondez aux questions sur l'identification précise des objets dans les images et les vidéos. |
Compréhension de contenu numérique | Répondre à des questions et extraire des informations à partir de contenus visuels tels que des infographies, des graphiques, des figures, des tableaux et des pages Web |
Génération de contenu structuré | Générer des réponses basées sur des entrées multimodales dans des formats tels que HTML et JSON. |
Sous-titrage et description | Générez des descriptions d'images et de vidéos avec différents niveaux de détail. |
Vidéos longues | Vous pouvez traiter des contenus longs, avec jusqu'à un million de jetons pour le texte, le code, les images, la vidéo et l'audio. |
Raisonnement | Déduisez de manière composée de nouvelles informations sans mémorisation ni récupération. |
Audio | Analysez les fichiers vocaux pour des synthèses, des transcriptions et des questions/réponses. |
Audio et vidéo | Synthétisez un fichier vidéo avec du contenu audio et renvoyez des chapitres avec des codes temporels. |
Traitement multimodal | Traitez simultanément plusieurs types de contenus d'entrée, tels que les contenus vidéo et audio. |
Cas d'utilisation de Gemini 1.0 Pro
Gemini 1.0 Pro prend en charge la génération de texte et de code à partir d'une requête textuelle. Voici quelques exemples de cas d'utilisation :
Cas d'utilisation | Description |
---|---|
Synthèse | Créez une version plus courte d'un document intégrant des informations pertinentes à partir du texte d'origine. Par exemple, vous pouvez résumer un chapitre d'un manuel. Vous pouvez également créer une description récapitulative du produit à partir d'un long paragraphe décrivant le produit en détail. |
Systèmes de questions-réponses | Obtenez des réponses aux questions sous forme de texte. Par exemple, vous pouvez automatiser la création d'un document de questions fréquentes (FAQ) à partir du contenu de la base de connaissances. |
Compréhension de contenu numérique | Attribuez un libellé au texte fourni. Par exemple, un libellé peut être appliqué à un texte décrivant son exactitude grammaticale. |
Classification | Attribuez une étiquette décrivant le texte fourni. Par exemple, appliquez des étiquettes indiquant si un bloc de texte est grammaticalement correct. |
Recherche d'informations | Combiner la connaissance du monde avec des informations extraites des images et des vidéos. |
Reconnaissance d'objets | Répondez aux questions sur l'identification précise des objets dans les images et les vidéos. |
Analyse des sentiments | Il s'agit d'une forme de classification qui identifie le sentiment du texte. Le sentiment est transformé en libellé appliquée au texte. Par exemple, le sentiment du texte peut être des polarités comme positives ou négatives, ou des sentiments comme de la colère ou de la satisfaction. |
Extraction d'entités | Générez des textes en spécifiant un ensemble d'exigences et un contexte. Par exemple, vous pourriez vouloir rédiger un e-mail dans un contexte donné avec un certain ton. |
Génération de code | Générez du code en fonction d'une description Par exemple, vous pouvez demander au modèle d'écrire une fonction qui vérifie si une année est une année bissextile ou non. |
Cas d'utilisation de Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision prend en charge la génération de texte à partir de texte, d'images et de vidéos fournis en entrée. Voici quelques exemples de cas d'utilisation :
Cas d'utilisation | Description |
---|---|
Recherche d'informations | Combiner la connaissance du monde avec des informations extraites des images et des vidéos. |
Reconnaissance d'objets | Répondez aux questions sur l'identification précise des objets dans les images et les vidéos. |
Compréhension de contenu numérique | Répondez aux questions en extrayant des informations à partir de contenus tels que des infographies, des graphiques, des figures, des tableaux et des pages Web. |
Génération de contenu structuré | Générez des réponses au format HTML et JSON en fonction des instructions fournies dans la requête. |
Sous-titrage/description | Générez des descriptions d'images et de vidéos avec différents niveaux de détail. |
Extrapolation | Essayez de deviner ce qui ne figure pas dans une image, ou ce qui se passe avant ou après une vidéo. |
Détection d'objets dans une photo | Détecte un objet dans une image et renvoie une description textuelle de l'objet. |
Renvoyer des informations sur des articles dans une image | À partir d'une image contenant plusieurs articles d'épicerie, Gemini 1.0 Pro Vision peut renvoyer une estimation du montant que vous devez payer. |
Comprendre les écrans et les interfaces | Extrayez des informations à partir d'écrans d'appareils, d'interfaces utilisateur et de mises en page. Par exemple, vous pouvez utiliser une image d'un appareil avec Gemini 1.0 Pro Vision pour obtenir des instructions sur son utilisation. |
Comprendre les schémas techniques | Déchiffrez un schéma de relation d'entité (ER), comprenez les relations entre les tables, identifiez les exigences d'optimisation dans un environnement spécifique tel que BigQuery. |
Faire une recommandation basée sur plusieurs images | Vous pouvez utiliser des photos de lunettes de soleil pour obtenir une recommandation quant à la paire la mieux adaptée à votre visage. |
Générer une description de vidéo | Détectez ce qui est affiché dans une vidéo. Par exemple, si vous créez une vidéo concernant une destination de vacances, vous pouvez obtenir une description de cette destination, les cinq activités à ne pas manquer et des suggestions pour vous y rendre. |
Pour en savoir plus sur la conception de requêtes pour différents usages, consultez les pages suivantes :
- Requêtes multimodales
- Requêtes textuelles
- Requêtes de chat
- Requêtes de chat de code
- Requêtes pour la génération de code
Voir également : Limites multimodales
SDK de langage de programmation
L'API Vertex AI Gemini fournit des SDK dans les langues suivantes :
Python
Le SDK Python est fourni dans le package vertexai
.
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])
Node.js
Le SDK Vertex AI pour Node.js vous permet d'utiliser l'API Gemini dans Vertex AI pour créer des fonctionnalités et des applications basées sur l'IA.
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
L'API Vertex AI pour Java est fournie dans l'artefact google-cloud-vertexai
.
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
Go
Le SDK Go est fourni dans le package cloud.google.com/go/vertexai
.
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
En quoi l'API Gemini dans Vertex AI et l'API Gemini dans Google AI Studio sont différentes
L'API Gemini dans Vertex AI et l'API Gemini dans Google AI Studio vous permettent d'intégrer les fonctionnalités des modèles Gemini dans vos applications. La plate-forme la plus adaptée dépend de vos objectifs.
L'API Vertex AI Gemini est conçue pour les développeurs et les entreprises afin d'être utilisée dans des déploiements à grande échelle. Elle offre des fonctionnalités telles que la sécurité de l'entreprise, la résidence des données, les performances et l'assistance technique. Si vous êtes déjà un client Google Cloud ou si vous déployez des applications à moyenne ou grande échelle, vous êtes au bon endroit.
Si vous êtes un utilisateur, un étudiant ou un développeur qui débute sur Google Cloud, essayez l'API Google AI Gemini, adaptée aux tests, au prototypage et aux petits déploiements. Si vous recherchez une méthode pour utiliser Gemini directement à partir de vos applications mobiles et Web, consultez les SDK de l'IA de Google pour Android, Swift et le Web.
Documentation de l'API Vertex AI Gemini
Sélectionnez l'une des rubriques suivantes pour en savoir plus sur l'API Vertex AI Gemini.
Premiers pas avec l'API Vertex AI Gemini
-
Lancez-vous dans Google Cloud
Si vous débutez sur Google Cloud, suivez les étapes de configuration décrites sur cette page pour démarrer rapidement.
-
Présentation de Generative AI sur Vertex AI
Découvrez les workflows d'IA générative, les modèles disponibles et comment commencer à créer votre application d'IA générative.
-
Créer des requêtes pour Gemini dans Vertex AI Studio
Utilisez Vertex AI Studio pour concevoir, tester et personnaliser vos requêtes multimodales Gemini.
Migrer vers l'API Vertex AI Gemini
-
Migrer depuis Azure OpenAI vers Vertex AI
Découvrez comment migrer votre code Python d'Azure OpenAI vers l'API Vertex AI Gemini.
-
Migrer de l'IA de Google vers Vertex AI
Découvrez comment migrer votre code Python de l'API Google AI Gemini vers l'API Vertex AI Gemini.
-
Migrer de l'API PaLM vers l'API Gemini
Découvrez comment migrer votre code Python de l'API Vertex AI PaLM vers l'API Vertex AI Gemini.
Découvrir comment utiliser les fonctionnalités principales
-
Envoyer des requêtes d'invites multimodales
Apprenez à envoyer des requêtes d'invites multimodales à l'aide de la console Cloud, du SDK Python ou de l'API REST.
-
Requêtes "Envoyer des requêtes de chat"
Découvrez comment envoyer des requêtes de chat à tour unique et multitour à l'aide de la console Cloud, du SDK Python ou de l'API REST.
-
Appel de fonction
Découvrez comment obtenir du modèle des sorties JSON pour appeler des fonctions externes.