Vertex AI est compatible avec une sélection de modèles ouverts en tant que modèles gérés. Ces modèles ouverts peuvent être utilisés avec Vertex AI sous forme de modèle en tant que service (MaaS) et sont proposés en tant qu'API gérée. Lorsque vous utilisez un modèle ouvert géré, vous continuez à envoyer vos requêtes aux points de terminaison Vertex AI. Les modèles ouverts gérés sont sans serveur. Vous n'avez donc pas besoin de provisionner ni de gérer l'infrastructure.
Vous pouvez découvrir des modèles ouverts gérés sur la plate-forme Model Garden. et également y déployer des modèles. Pour en savoir plus, consultez Explorer les modèles d'IA dans Model Garden.
Modèles ouverts
Les modèles ouverts suivants sont proposés sous forme d'API gérées dans Vertex AI Model Garden (MaaS) :
Nom du modèle | Modalité | Description | Guide de démarrage rapide |
---|---|---|---|
gpt-oss 120B | Langue | Un modèle de 120 milliards de paramètres qui offre de hautes performances pour les tâches de raisonnement. | fiche de modèle |
gpt-oss 20B | Langue | Modèle de 20 milliards de paramètres optimisé pour l'efficacité et le déploiement sur du matériel grand public et Edge. | fiche de modèle |
Qwen3-Next-80B Thinking | Langue, code | Modèle de la famille Qwen3-Next, spécialisé dans la résolution de problèmes complexes et le raisonnement approfondi. | fiche de modèle |
Qwen3-Next-80B Instruct | Langue, code | Modèle de la famille Qwen3-Next, spécialisé dans le suivi de commandes spécifiques. | fiche de modèle |
Qwen3 Coder | Langue, code | Un modèle à poids ouvert développé pour les tâches de développement logiciel avancées. | fiche de modèle |
Qwen3 235B | Langue | Un modèle à poids ouvert doté d'une capacité de "pensée hybride" pour alterner entre raisonnement méthodique et conversation rapide. | fiche de modèle |
DeepSeek-V3.1 | Langue | Modèle hybride de DeepSeek compatible avec le mode réflexion et le mode non réflexion. | fiche de modèle |
DeepSeek R1 (0528) | Langue | Dernière version du modèle DeepSeek R1 de DeepSeek. | fiche de modèle |
Llama 4 Maverick 17B-128E | Langage, vision | Modèle Llama 4 le plus vaste et le plus performant, doté de fonctionnalités de codage, de raisonnement et de traitement d'images. Llama 4 Maverick 17B-128E est un modèle multimodal qui utilise l'architecture Mixture-of-Experts (MoE) et la fusion précoce. | fiche de modèle |
Llama 4 Scout 17B-16E | Langage, vision | Llama 4 Scout 17B-16E offre des résultats de pointe pour sa catégorie de taille, surpassant les générations Llama précédentes et d'autres modèles ouverts et propriétaires sur plusieurs benchmarks. Llama 4 Scout 17B-16E est un modèle multimodal qui utilise l'architecture MoE (Mixture-of-Experts) et la fusion précoce. | fiche de modèle |
Llama 3.3 | Langue | Llama 3.3 est un modèle textuel de 70 milliards de paramètres adapté aux instructions. Il offre des performances améliorées par rapport à Llama 3.1 70B et à Llama 3.2 90B lorsqu'il est utilisé pour des applications textuelles. De plus, pour certaines applications, Llama 3.3 70B approche les performances de Llama 3.1 405B. | fiche de modèle |
Llama 3.2 (preview) | Langage, vision | Modèle multimodal de taille moyenne (90 milliards) qui peut prendre en charge le raisonnement sur les images, comme l'analyse de graphiques et de tableaux, ainsi que le sous-titrage d'images. | fiche de modèle |
Llama 3.1 | Langue |
Ensemble de LLM multilingues optimisés pour les cas d'utilisation de dialogues multilingues et plus performants que de nombreux modèles de chat Open Source et fermés disponibles sur les benchmarks courants du secteur. Llama 3.1 405B est en disponibilité générale (DG). Llama 3.1 8B et Llama 3.1 70B sont en version Preview. |
fiche de modèle |
Les modèles d'embedding ouverts suivants sont proposés sous forme d'API gérées dans Vertex AI Model Garden (MaaS) :
Nom du modèle | Description | Dimensions de sortie | Longueur maximale de la séquence | Langues de texte compatibles | Guide de démarrage rapide |
---|---|---|---|---|---|
multilingual-e5-small | Fait partie de la famille E5 de modèles d'embedding textuel. La petite variante contient 12 couches. | Jusqu'à 384 | 512 jetons | Langues disponibles | fiche de modèle |
multilingual-e5-large | Fait partie de la famille E5 de modèles d'embedding textuel. La variante Large contient 24 couches. | Jusqu'à 1 024 | 512 jetons | Langues disponibles | fiche de modèle |
Points de terminaison régionaux et mondiaux
Pour les points de terminaison régionaux, les requêtes sont traitées à partir de la région que vous avez spécifiée. Si vous avez des exigences de résidence des données ou si un modèle n'est pas compatible avec le point de terminaison mondial, utilisez les points de terminaison régionaux.
Lorsque vous utilisez le point de terminaison global, Google peut traiter et diffuser vos requêtes depuis n'importe quelle région compatible avec le modèle que vous utilisez. Dans certains cas, cela peut entraîner une latence plus élevée. Le point de terminaison global permet d'améliorer la disponibilité globale et de réduire les erreurs.
Il n'y a pas de différence de prix avec les points de terminaison régionaux lorsque vous utilisez le point de terminaison mondial. Toutefois, les quotas et les fonctionnalités des modèles compatibles du point de terminaison mondial peuvent différer de ceux des points de terminaison régionaux. Pour en savoir plus, consultez la page du modèle tiers concerné.
Spécifier le point de terminaison global
Pour utiliser le point de terminaison mondial, définissez la région sur global
.
Par exemple, l'URL de requête d'une commande curl utilise le format suivant :
https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME
Pour le SDK Vertex AI, un point de terminaison régional est défini par défaut. Définissez la région sur GLOBAL
pour utiliser le point de terminaison mondial.
Restreindre l'utilisation des points de terminaison d'API mondiaux
Pour appliquer l'utilisation de points de terminaison régionaux, utilisez la contrainte de règle d'administration constraints/gcp.restrictEndpointUsage
afin de bloquer les requêtes envoyées au point de terminaison d'API mondial. Pour en savoir plus, consultez Restreindre l'utilisation des points de terminaison.
Accorder aux utilisateurs l'accès aux modèles ouverts
Pour que vous puissiez activer des modèles ouverts et envoyer une requête, un administrateur Google Clouddoit définir les autorisations requises et vérifier que la règle d'administration autorise l'utilisation des API requises.
Définir les autorisations requises pour utiliser des modèles ouverts
Vous devez disposer des rôles et autorisations suivants pour utiliser des modèles ouverts :
Vous devez disposer du rôle IAM (Identity and Access Management) de gestionnaire des droits d'approvisionnement des consommateurs. Toute personne disposant de ce rôle peut activer des modèles ouverts dans Model Garden.
Vous devez disposer de l'autorisation
aiplatform.endpoints.predict
. Cette autorisation est incluse dans le rôle IAM "Utilisateur Vertex AI". Pour en savoir plus, consultez les sections Utilisateur Vertex AI et Contrôle des accès.
Console
Pour attribuer les rôles IAM "Gestionnaire des droits d'approvisionnement des consommateurs" à un utilisateur, accédez à la page IAM.
Dans la colonne Compte principal, recherchez le compte principal d'utilisateur pour lequel vous souhaitez activer l'accès aux modèles ouverts, puis cliquez sur Modifier le compte principal sur cette ligne.
Dans le volet Modifier l'accès, cliquez sur
Ajouter un autre rôle.Dans Sélectionner un rôle, sélectionnez Gestionnaire des droits d'approvisionnement des consommateurs.
Dans le volet Modifier les accès, cliquez sur
Ajouter un autre rôle.Dans le champ Sélectionner un rôle, sélectionnez Utilisateur Vertex AI.
Cliquez sur Enregistrer.
gcloud
-
In the Google Cloud console, activate Cloud Shell.
Attribuez le rôle de gestionnaire des droits d'approvisionnement des consommateurs requis pour activer les modèles ouverts dans Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Attribuez le rôle d'utilisateur Vertex AI qui inclut l'autorisation
aiplatform.endpoints.predict
requise pour effectuer des requêtes :gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Remplacez
PRINCIPAL
par l'identifiant du compte principal. L'identifiant se présente sous la formeuser|group|serviceAccount:email
oudomain:domain
(par exemple,user:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
oudomain:example.domain.com
.Le résultat est une liste de liaisons de stratégie qui incluent les éléments suivants :
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Pour plus d'informations, consultez Attribuer un rôle unique et
gcloud projects add-iam-policy-binding
.
Définir la règle d'organisation pour l'accès au modèle ouvert
Pour activer les modèles ouverts, votre règle d'administration doit autoriser l'API suivante : API Cloud Commerce Consumer Procurement – cloudcommerceconsumerprocurement.googleapis.com
Si votre organisation définit une règle d'administration pour restreindre l'utilisation des services, un administrateur de l'organisation doit vérifier que cloudcommerceconsumerprocurement.googleapis.com
est autorisé en définissant la règle d'administration.
De plus, si vous disposez d'une règle d'administration qui limite l'utilisation des modèles dans Model Garden, cette règle doit autoriser l'accès aux modèles ouverts. Pour en savoir plus, consultez la section Contrôler l'accès au modèle.
Conformité réglementaire des modèles ouverts
Les certifications pour l'IA générative sur Vertex AI continuent de s'appliquer lorsque des modèles ouverts sont utilisés en tant qu'API gérée avec Vertex AI. Si vous avez besoin d'informations sur les modèles eux-mêmes, vous pouvez en trouver d'autres dans la fiche du modèle concerné ou contacter l'éditeur du modèle.
Vos données sont stockées au repos dans la région ou la multirégion sélectionnée pour les modèles ouverts sur Vertex AI, mais la régionalisation du traitement des données peut varier. Pour obtenir la liste détaillée des engagements de traitement des données des modèles ouverts, consultez Résidence des données pour les modèles ouverts.
Les requêtes des clients et les réponses des modèles ne sont pas partagées avec des tiers lorsque vous utilisez l'API Vertex AI, y compris les modèles ouverts. Google ne traite les données client que sur instruction du client, comme décrit plus en détail dans notre Avenant relatif au traitement des données dans le cloud.