Informations relatives au modèle

Vertex AI propose une liste croissante de modèles de base que vous pouvez tester, déployer et personnaliser pour les utiliser dans vos applications basées sur l'IA. Les modèles de base sont adaptés à des cas d'utilisation spécifiques et proposés à des prix différents. Cette page récapitule les modèles disponibles dans les différentes API et vous guide sur le choix des modèles par cas d'utilisation.

Pour en savoir plus sur tous les modèles d'IA et toutes les API sur Vertex AI, consultez la page Découvrir les modèles d'IA et les API.

API du modèle de fondation

Vertex AI dispose des API de modèles de fondation suivantes :

  • API Gemini (texte multimodal, image, audio, vidéo, PDF, code et chat)
  • API PaLM (texte, chat et représentations vectorielles continues)
  • API Codey (génération de code, chat de code et saisie semi-automatique de code)
  • API Imagen (génération d'image, modification d'image, description d'image, système de questions-réponses et représentation vectorielle continue multimodale)

Modèles de l'API Gemini

Le tableau suivant récapitule les modèles disponibles dans l'API Gemini :

Nom du modèle Description Propriétés du modèle Prise en charge du réglage
Gemini 1.5 Pro (Preview)
(gemini-1.5-pro)
Modèle multimodal qui permet d'ajouter des fichiers image, audio, vidéo et PDF dans des requêtes de texte ou de chat pour une réponse textuelle ou de code. Gemini 1.5 Pro permet de comprendre un contexte de grande taille comprenant jusqu'à un million de jetons. Nombre maximal de jetons (entrée et sortie) : 1 million
Nombre maximal de jetons de sortie : 8 192
Taille maximale de l'image brute : 20 Mo
Taille maximale de l'image encodée en base64 : 7 Mo
Nombre maximal d'images par requête : 3 000
Durée maximale de la vidéo : 1 heure
Nombre maximal de vidéos par requête : 10
Durée audio maximale Environ 8,4 heures
Contenu audio maximal par requête : 1
Taille maximale du fichier PDF : 50 Mo
Données d'entraînement : jusqu'à avril 2024
Supervisé : non
RLHF : non
Distillation : non
Gemini 1.0 Pro
(gemini-1.0-pro)
Conçu pour gérer les tâches en langage naturel, le chat de texte et de code multitours ainsi que la génération de code. Utilisez Gemini 1.0 Pro pour les requêtes ne contenant que du texte. Nombre maximal total de jetons (entrée et sortie) : 32 760
Nombre maximal de jetons de sortie : 8 192
Données d'entraînement : jusqu'à février 2023
Supervisé : Oui
RLHF : Non
Distillation : Non
Gemini 1.0 Pro Vision
(gemini-1.0-pro-vision)
Modèle multimodal qui permet d'ajouter des images, PDF et vidéos dans des requêtes de texte ou de chat pour une réponse textuelle ou de code. Utilisez les requêtes multimode Gemini 1.0 Pro Vision. Nombre maximal total de jetons (entrée et sortie) : 16 384
Nombre maximal de jetons de sortie : 2 048
Taille maximale de l'image : aucune limite
Nombre maximal d'images par requête : 16
Durée maximale de la vidéo : 2 minutes
Nombre maximal de vidéos par requête : 1
Données d'entraînement : jusqu'à février 2023
Supervisé : non
RLHF : non
Distillation : non
Gemini 1.0 Ultra (DG avec liste d'autorisation) Modèle multimodal le plus performant de Google, optimisé pour les tâches complexes telles que l'instruction, le code et le raisonnement, et compatible avec plusieurs langues. Gemini 1.0 Ultra est en disponibilité générale (DG) pour un nombre restreint de clients. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 2 048
Supervisé : non
RLHF : non
Distillation : non
Gemini 1.0 Ultra Vision (DG avec liste d'autorisation) Modèle de vision multimodal le plus performant de Google, optimisé pour prendre en charge le texte, les images, les vidéos et le chat multitour. Gemini 1.0 Ultra Vision est en disponibilité générale (DG) pour un nombre restreint de clients. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 2 048
Supervisé : non
RLHF : non
Distillation : non

Modèles de l'API PaLM

Le tableau suivant récapitule les modèles disponibles dans l'API PaLM :

Nom du modèle Description Propriétés du modèle Prise en charge du réglage
PaLM 2 pour le texte
(text-bison)
Conçu pour suivre des instructions en langage naturel, il est adapté à diverses tâches linguistiques, telles que la classification, la synthèse et l'extraction. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 1 024
Données d'entraînement : jusqu'à février 2023
Supervisé : Oui
RLHF : Oui (Preview)
Distillation : Non
PaLM 2 pour le texte (text-unicorn) Modèle de texte le plus avancé de la famille de modèles PaLM à utiliser avec des tâches complexes de langage naturel. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 1 024
Données d'entraînement : jusqu'à février 2023
Supervisé : Non
RLHF : Non
Distillation : Oui (preview)
PaLM 2 pour le texte 32k
(text-bison-32k)
Optimisé pour suivre les instructions en langage naturel et adapté à diverses tâches linguistiques. Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Données d'entraînement : jusqu'à août 2023
Supervisé : Oui
RLHF : Oui
Distillation : Non
PaLM 2 pour le chat
(chat-bison)
Optimisé pour les cas d'utilisation de conversation multitours. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 2 048
Données d'entraînement : jusqu'à février 2023
Nombre maximal de tours : 2 500
Supervisé : Oui
RLHF : Oui
Distillation : Non
PaLM 2 pour le chat 32k
(chat-bison-32k)
Optimisé pour les cas d'utilisation de conversation multitours. Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Données d'entraînement : jusqu'à août 2023
Nombre maximal de tours : 2 500
Supervisé : Oui
RLHF : Oui
Distillation : Non
Représentations vectorielles continues pour le texte
(textembedding-gecko)
Renvoie les représentations vectorielles continues de modèle pour les entrées de texte. 3 072 jetons d'entrée et génère des représentations vectorielles continues de 768 dimensions. Supervisé : Oui
RLHF : Oui
Distillation : Non
Représentations vectorielles continues pour le texte multilingue
(textembedding-gecko-multilingual)
Renvoie des représentations vectorielles continues de modèle pour les entrées de texte compatibles avec plus de 100 langues 3 072 jetons d'entrée et génère des représentations vectorielles continues de 768 dimensions. Supervisé : Oui (Preview)
RLHF : Non
Distillation : Non

Modèles des API Codey

Le tableau suivant récapitule les modèles disponibles dans les API Codey :

Nom du modèle Description Propriétés du modèle Prise en charge du réglage
Codey pour la génération de code
(code-bison)
Modèle optimisé pour générer du code en fonction d'une description en langage naturel du code souhaité. Par exemple, il peut générer un test unitaire pour une fonction. Nombre maximal de jetons d'entrée : 6 144
Nombre maximal de jetons de sortie : 1 024
Supervisé : Oui
RLHF : Oui
Distillation : Non
Codey pour la génération de code 32k
(code-bison-32k)
Modèle optimisé pour générer du code en fonction d'une description en langage naturel du code souhaité. Par exemple, il peut générer un test unitaire pour une fonction. Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Supervisé : Oui
RLHF : Oui
Distillation : Non
Codey pour le chat de code
(codechat-bison)
Modèle optimisé pour les conversations de chatbot qui répondent aux questions sur le code. Nombre maximal de jetons d'entrée : 6 144
Nombre maximal de jetons de sortie : 1 024
Supervisé : Oui
RLHF : Oui
Distillation : Non
Codey pour le chat de code 32k
(codechat-bison-32k)
Modèle optimisé pour les conversations de chatbot qui répondent aux questions sur le code. Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Supervisé : Oui
RLHF : Oui
Distillation : Non
Codey pour la complétion de code
(code-gecko)
Un modèle affiné pour suggérer la complétion de code en fonction du contexte du code écrit. Nombre maximal de jetons d'entrée : 2 048
Nombre maximal de jetons de sortie : 64
Supervisé : non
RLHF : non
Distillation : non

Modèles de l'API Imagen

Le tableau suivant récapitule les modèles disponibles dans l'API Imagen :

Nom du modèle Description Propriétés du modèle Prise en charge du réglage
Imagen pour la génération d'images
(imagegeneration)
Ce modèle est compatible avec la génération d'images et peut créer des éléments visuels de haute qualité en quelques secondes. Nombre maximal de requêtes par minute par projet : 100
Nombre maximal d'images générées : 8
Image de base maximale (modification/scaling à la hausse) : 10 Mo
Résolution d'image générée : 1 024 x 1 024 pixels
Supervisé : Non
RLHF : Non
Représentations vectorielles continues multimodales
(multimodalembedding)
Ce modèle génère des vecteurs en fonction de l'entrée que vous fournissez, qui peut inclure une combinaison d'images et de texte. Nombre maximal de requêtes par minute par projet : 120
Longueur maximale du texte : 32 jetons
Langue : anglais
Taille maximale de l'image : 20 Mo
Supervisé : Non
RLHF : Non
Sous-titrage d'images
(imagetext)
Modèle prenant en charge le sous-titrage d'images. Ce modèle génère un sous-titre à partir d'une image que vous fournissez en fonction de la langue que vous spécifiez. Nombre maximal de requêtes par minute par projet : 500
Langue : anglais, français, allemand, italien, espagnol
Taille maximale de l'image : 10 Mo
Nombre maximal de sous-titres : 3
Supervisé : Non
RLHF : Non
Visual Question Answering, VQA
(imagetext)
Modèle compatible avec les questions et les réponses d'images. Nombre maximal de requêtes par minute par projet : 500
Langues : anglais
Taille maximale de l'image : 10 Mo
Nombre maximal de réponses : 3
Supervisé : Non
RLHF : Non

Modèles de l'API MedLM

Le tableau suivant récapitule les modèles disponibles dans l'API MedLM :

Nom du modèle Description Propriétés du modèle Prise en charge du réglage
MedLM-medium (medlm-medium) Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research. Ces modèles aident les professionnels de la santé en répondant à des questions médicales et en résumant les documents médicaux et de santé. Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Langues : anglais
Supervisé : Non
RLHF : Non
MedLM-large (medlm-large) Suite conforme à la loi HIPAA, qui repose sur des API et des modèles médicaux optimisés mis en œuvre par Google Research. Ces modèles aident les professionnels de la santé en répondant à des questions médicales et en résumant les documents médicaux et de santé. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 1 024
Langues : anglais
Supervisé : Non
RLHF : Non

Langues acceptées

L'API Vertex AI PaLM et l'API Vertex AI Gemini sont en disponibilité générale (DG) pour les langues suivantes :

  • Arabe (ar)
  • Bengalî (bn)
  • Bulgare (bg)
  • Chinois simplifié et traditionnel (zh)
  • Croate (hr)
  • République tchèque (cs)
  • Danois (da)
  • Néerlandais (nl)
  • Anglais (en)
  • Estonien (et)
  • Finnois (fi)
  • Français (fr)
  • Allemand (de)
  • Grec (el)
  • Hébreu (iw)
  • Hindi (hi)
  • Hongrois (hu)
  • Indonésien (id)
  • Italien (it)
  • Japonais (ja)
  • Coréen (ko)
  • Letton (lv)
  • Lituanien (lt)
  • Norvégien (no)
  • Polonais (pl)
  • Portugais (pt)
  • Roumain (ro)
  • Russe (ru)
  • Serbe (sr)
  • Slovaque (sk)
  • Slovène (sl)
  • Espagnol (es)
  • Swahili (sw)
  • Suédois (sv)
  • Thaï (th)
  • Turc (tr)
  • Ukrainien (uk)
  • Vietnamien (vi)

Pour accéder à d'autres langues, contactez votre représentant Google Cloud.

Découvrir tous les modèles dans Model Garden

Model Garden est une plate-forme qui vous permet de découvrir, de tester, de personnaliser et de déployer des modèles de Google, puis de sélectionner des modèles et des éléments OSS. Pour explorer les modèles d'IA générative et les API disponibles sur Vertex AI, accédez à Model Garden dans la console Google Cloud.

Accéder à la page "Jardin de modèles"

Pour en savoir plus sur Model Garden, y compris sur les modèles et fonctionnalités disponibles, consultez la page Explorer les modèles d'IA dans Model Garden.

Étapes suivantes