Les modèles AI21 Labs sur Vertex AI offrent des modèles sans serveur et entièrement gérés en tant qu'API. Pour utiliser un modèle AI21 Labs sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Étant donné que les modèles AI21 Labs utilisent une API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.
Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.
Les modèles AI21 Labs vous sont facturés à mesure que vous les utilisez (paiement à l'usage). Pour le paiement à l'usage, consultez les tarifs des modèles AI21 Labs sur la page des tarifs de Vertex AI.
Modèles AI21 Labs disponibles
Les modèles suivants sont disponibles dans AI21 Labs pour une utilisation dans Vertex AI. Pour accéder à un modèle Labs AI21, accédez à la fiche de modèle Model Garden.
Jamba 1.5 Mini
Jamba 1.5 Mini d'AI21 Labs est un petit modèle de fondation construit à partir d'une architecture hybride qui exploite l'architecture Mamba et l'architecture Transformer pour atteindre une qualité de pointe à un prix compétitif.
Grâce à l'architecture hybride SSM-Transformer et à une fenêtre de contexte de 256 000 caractères, Jamba 1.5 Mini résout efficacement divers cas d'utilisation d'entreprise pour la génération et la compréhension du texte.
Jamba 1.5 Mini est idéal pour les workflows d'entreprise comportant des tâches axées sur les données et nécessitant un modèle capable d'ingérer une grande quantité d'informations pour produire une réponse précise et détaillée, par exemple pour résumer des documents longs ou répondre à des questions à partir d'une base de connaissances organisationnelle étendue. Jamba 1.5 Mini offre un équilibre parfait entre qualité, débit et faible coût.
Accéder à la fiche de modèle Jamba 1.5 MiniJamba 1.5 Large
Jamba 1.5 Large d'AI21 Labs est un modèle de fondation basé sur une architecture hybride qui exploite l'architecture Mamba et l'architecture Transformer pour obtenir une qualité de premier plan à un prix compétitif.
Avec l'architecture hybride SSM-Transformer et une fenêtre de contexte de 256 000 caractères, Jamba 1.5 Large résout efficacement divers cas d'utilisation d'entreprise pour la génération et la compréhension du texte. Jamba 1.5 Large compte 94 milliards de paramètres actifs et 398 milliards de paramètres au total, ce qui permet d'obtenir des réponses très précises.
Jamba 1.5 Large est idéal pour les workflows d'entreprise comportant des tâches axées sur les données et nécessitant un modèle capable d'ingérer une grande quantité d'informations pour produire une réponse précise et détaillée, par exemple pour résumer des documents longs ou répondre à des questions à partir d'une base de connaissances organisationnelle étendue. Jamba 1.5 Large est conçu pour offrir des réponses de qualité supérieure, un débit élevé et un prix compétitif par rapport à d'autres modèles de cette classe de taille.
Accéder à la fiche de modèle Jamba 1.5 LargeUtiliser les modèles AI21 Labs
Lorsque vous envoyez des requêtes d'utilisation des modèles d'AI21 Labs, utilisez les noms de modèles suivants :
- Pour Jamba 1.5 Mini, utilisez
jamba-1.5-mini@001
. - Pour Jamba 1.5 Large, utilisez
jamba-1.5-large@001
.
Nous vous recommandons d'utiliser les versions de modèle qui incluent un suffixe commençant par un symbole @
en raison des différences possibles entre les versions de modèle. Si vous ne spécifiez pas de version de modèle, la dernière version est toujours utilisée, ce qui peut affecter vos workflows de manière imprévue lorsqu'une version de modèle change.
Avant de commencer
Pour utiliser des modèles AI21 Labs avec Vertex AI, procédez comme suit. Vous devez activer l'API Vertex AI (aiplatform.googleapis.com
) pour pouvoir utiliser Vertex AI. Si vous disposez déjà d'un projet pour lequel l'API Vertex AI est activée, vous pouvez utiliser ce projet au lieu de créer un projet.
Assurez-vous de disposer des autorisations requises pour activer et utiliser les modèles de partenaires. Pour en savoir plus, consultez la section Accorder les autorisations requises.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Go to one of the following Model Garden model cards, then click enable:
Effectuer un appel en flux continu à un modèle AI21 Labs
L'exemple suivant effectue un appel en flux continu à un modèle AI21 Labs.
REST
Une fois que vous avez configuré votre environnement, vous pouvez utiliser REST pour tester une requête textuelle. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION : région compatible avec les modèles AI21 Labs.
- MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle
@
. - ROLE : rôle associé à un message. Vous pouvez spécifier
user
ouassistant
. Le premier message doit utiliser le rôleuser
. Les modèles fonctionnent avec des toursuser
etassistant
alternés. Si le message final utilise le rôleassistant
, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle. - STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence d'utilisation finale. Définissez la valeur sur
true
pour diffuser la réponse et surfalse
pour la renvoyer simultanément. - CONTENT : contenu, tel que le texte, du message
user
ouassistant
. - MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent à environ 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict
Corps JSON de la requête :
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON semblable à la suivante.
Effectuer un appel sans streaming à un modèle AI21 Labs
L'exemple suivant effectue un appel sans streaming à un modèle AI21 Labs.
REST
Après avoir configuré votre environnement, vous pouvez utiliser REST pour tester une requête textuelle. L'exemple suivant envoie une requête au point de terminaison du modèle de l'éditeur.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- LOCATION : région compatible avec les modèles AI21 Labs.
- MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle
@
. - ROLE : rôle associé à un message. Vous pouvez spécifier
user
ouassistant
. Le premier message doit utiliser le rôleuser
. Les modèles fonctionnent avec des toursuser
etassistant
alternés. Si le message final utilise le rôleassistant
, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle. - STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence d'utilisation finale. Définissez la valeur sur
true
pour diffuser la réponse et surfalse
pour la renvoyer simultanément. - CONTENT : contenu, tel que le texte, du message
user
ouassistant
. - MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent à environ 60-80 mots.
Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Corps JSON de la requête :
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON semblable à la suivante.
Disponibilité et quotas des régions des modèles AI21 Labs
Pour les modèles AI21 Labs, un quota s'applique à chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM) et en jetons par minute (TPM). Le nombre de jetons par minute inclut à la fois les jetons d'entrée et de sortie.
Les régions compatibles, les quotas par défaut et la longueur de contexte maximale pour chaque modèle AI21 Labs sont regroupés dans les tableaux suivants :
Jamba 1.5 Mini
Région | Système de quotas | Longueur de contexte compatible |
---|---|---|
us-central1 |
50 RPM, 60 000 TPM | 256 000 jetons |
europe-west4 |
50 RPM, 60 000 TPM | 256 000 jetons |
Jamba 1.5 Large
Région | Système de quotas | Longueur de contexte compatible |
---|---|---|
us-central1 |
20 RPM, 20 000 TPM | 256 000 jetons |
Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud. Pour en savoir plus sur les quotas, consultez la page Utiliser des quotas.