Modèles Mistral AI

Les modèles Mistral AI sur Vertex AI offrent des modèles sans serveur et entièrement gérés en tant qu'API. Pour utiliser un modèle Mistral AI sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Étant donné que les modèles Mistral AI utilisent une API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.

Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.

Les modèles Mistral AI vous sont facturés à l'utilisation (paiement à l'usage). Pour le paiement à l'usage, consultez les tarifs des modèles Mistral AI sur la page des tarifs de Vertex AI.

Modèles Mistral AI disponibles

Les modèles suivants sont disponibles depuis Mistral AI et peuvent être utilisés dans Vertex AI. Pour accéder à un modèle Mistral AI, accédez à la fiche de modèle Model Garden.

Mistral Large (2407)

Mistral Large (2407) est le modèle phare de Mistral AI pour la génération de texte. Il intègre des capacités de raisonnement de premier niveau et peut être utilisée pour des tâches multilingues complexes, telles que la compréhension de texte, la transformation et la génération de code. Pour plus d'informations, consultez l'article de Mistral AI sur Mistral Large (2407).

Mistral Large (2407) se distingue par les dimensions suivantes :

  • Conception multilingue. Des dizaines de langues sont disponibles, y compris l'allemand, l'anglais, le chinois, le coréen, l'espagnol, le français, le néerlandais, le polonais, le portugais, l'italien et le japonais.
  • Expertise en codage. Entraîné sur plus de 80 langages de programmation tels que Python, Java, C, C++, JavaScript et Bash. Également entraîné sur des langages plus spécifiques tels que Swift et Fortran.
  • Axé sur les agents. Fonctionnalités d'agent de pointe avec appels de fonctions natifs et sorties au format JSON.
  • Raisonnement avancé. Des capacités mathématiques et de raisonnement de pointe.
Accéder à la fiche de modèle Mistral Large (2407)

Mistral Nemo

Mistral Nemo est le modèle propriétaire le plus rentable de Mistral AI. Il s'agit du choix idéal pour les charges de travail à faible latence et les tâches simples pouvant être effectuées de façon groupée, telles que la classification, le service client et la génération de texte. Pour en savoir plus, consultez la documentation de Mistral AI.

Mistral Nemo est optimisé pour les cas d'utilisation suivants :

  • Générer et classer du texte
  • Créer des agents pour des scénarios de service client
  • Générer du code, le compléter, le vérifier et y ajouter des commentaires Compatible avec tous les langages de programmation standards.
Accéder à la fiche de modèle Mistral Nemo

Codestral

Codestral est un modèle génératif spécialement conçu et optimisé pour les tâches de génération de code, y compris la méthode fill-in-the-middle et la complétion de code. Codestral a été entraîné sur plus de 80 langages de programmation, ce qui lui permet de bien fonctionner avec les langages courants comme avec ceux moins courants. Pour en savoir plus, consultez la documentation sur la génération de code de Mistral AI.

Codetral est optimisé pour les cas d'utilisation suivants :

  • Générer du code, le compléter, y ajouter des suggestions et le traduire
  • Comprendre votre code pour fournir un résumé et une explication de votre code
  • Examiner la qualité de votre code en vous aidant à le refactoriser, à corriger les bugs et à générer des scénarios de test.
Accéder à la fiche de modèle Codestral

Utiliser des modèles Mistral AI

Lorsque vous envoyez des requêtes d'utilisation des modèles de Mistral AI, utilisez les noms de modèles suivants :

  • Pour Mistral Large (2407), utilisez mistral-large@2407.
  • Pour Mistral Nemo, utilisez mistral-nemo@2407.
  • Pour Codestral, utilisez codestral@2405.

Nous vous recommandons d'utiliser les versions de modèle qui incluent un suffixe commençant par un symbole @ en raison des différences possibles entre les versions de modèle. Si vous ne spécifiez pas de version de modèle, la dernière version est toujours utilisée, ce qui peut affecter vos workflows de manière imprévue lorsqu'une version de modèle change.

Pour en savoir plus sur l'utilisation du SDK Mistral AI, consultez la documentation Vertex AI Mistral AI.

Avant de commencer

Pour utiliser des modèles Mistral AI avec Vertex AI, procédez comme suit. Vous devez activer l'API Vertex AI (aiplatform.googleapis.com) pour pouvoir utiliser Vertex AI. Si vous disposez déjà d'un projet pour lequel l'API Vertex AI est activée, vous pouvez utiliser ce projet au lieu de créer un projet.

Assurez-vous de disposer des autorisations requises pour activer et utiliser des modèles partenaires. Pour en savoir plus, consultez la section Accorder les autorisations requises.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Go to one of the following Model Garden model cards, then click enable:

Effectuer un appel en flux continu à un modèle Mistral AI

L'exemple suivant effectue un appel en flux continu à un modèle Mistral AI.

REST

Après avoir configuré votre environnement, vous pouvez utiliser REST pour tester une requête textuelle. L'exemple suivant envoie une requête au point de terminaison du modèle du diffuseur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • LOCATION : région compatible avec les modèles Mistral AI.
  • MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle @.
  • ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
  • STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence d'utilisation finale. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer simultanément.
  • CONTENT : contenu, tel que le texte, du message user ou assistant.
  • MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent à environ 60-80 mots.

    Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corps JSON de la requête :

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Effectuer un appel unaire à un modèle Mistral AI

L'exemple suivant effectue un appel unaire à un modèle Mistral AI.

REST

Après avoir configuré votre environnement, vous pouvez utiliser REST pour tester une requête textuelle. L'exemple suivant envoie une requête au point de terminaison du modèle du diffuseur.

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • LOCATION : région compatible avec les modèles Mistral AI.
  • MODEL : nom du modèle que vous souhaitez utiliser. Dans le corps de la requête, excluez le numéro de version du modèle @.
  • ROLE : rôle associé à un message. Vous pouvez spécifier user ou assistant. Le premier message doit utiliser le rôle user. Les modèles fonctionnent avec des tours user et assistant alternés. Si le message final utilise le rôle assistant, le contenu de la réponse continue immédiatement à partir du contenu de ce message. Cela vous permet de limiter une partie de la réponse du modèle.
  • STREAM : valeur booléenne qui spécifie si la réponse est diffusée ou non. Diffusez votre réponse en flux continu pour réduire la perception de la latence d'utilisation finale. Définissez la valeur sur true pour diffuser la réponse et sur false pour la renvoyer simultanément.
  • CONTENT : contenu, tel que le texte, du message user ou assistant.
  • MAX_OUTPUT_TOKENS : nombre maximal de jetons pouvant être générés dans la réponse. Un jeton correspond environ à 3,5 caractères. 100 jetons correspondent à environ 60-80 mots.

    Spécifiez une valeur inférieure pour obtenir des réponses plus courtes et une valeur supérieure pour des réponses potentiellement plus longues.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corps JSON de la requête :

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Vous devriez recevoir une réponse JSON semblable à la suivante.

Disponibilité et quotas des régions d'un modèle Mistral AI

Pour les modèles Mistral AI, un quota s'applique à chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM) et en jetons par minute (TPM). Le nombre de jetons par minute inclut à la fois les jetons d'entrée et de sortie.

Les régions compatibles, les quotas par défaut et la longueur de contexte maximale pour chaque modèle Mistral AI sont regroupés dans les tableaux suivants :

Mistral Large (2407)

Région Système de quotas Longueur de contexte compatible
us-central1 60 RPM, 200 000 TPM 128 000 jetons
europe-west4 60 RPM, 200 000 TPM 128 000 jetons

Mistral Nemo

Région Système de quotas Longueur de contexte compatible
us-central1 60 RPM, 200 000 TPM 128 000 jetons
europe-west4 60 RPM, 200 000 TPM 128 000 jetons

Codestral

Région Système de quotas Longueur de contexte compatible
us-central1 60 RPM, 200 000 TPM 32 000 jetons
europe-west4 60 RPM, 200 000 TPM 32 000 jetons

Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud. Pour en savoir plus sur les quotas, consultez la page Utiliser des quotas.