Modelli di AI Mistral

I modelli di IA di Mistral su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello Mistral AI su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli di AI di Mistral utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.

Paghi i modelli di IA di Mistral man mano che li utilizzi (a consumo). Per i prezzi di pagamento a consumo, consulta i prezzi dei modelli di IA di Mistral nella pagina dei prezzi di Vertex AI.

Modelli Mistral AI disponibili

Mistral AI offre i seguenti modelli per l'utilizzo in Vertex AI. Per accedere a un modello di IA Mistral, vai alla relativa Scheda del modello di Model Garden.

Mistral grande (2407)

Mistral Large (2407) è il modello di punta di Mistral AI per la generazione di testo. Raggiunge le migliori capacità di ragionamento e può essere utilizzato per attività multilingue, tra cui comprensione del testo, trasformazione e programmazione di classificazione. Per saperne di più, vedi il post di Mistral AI su Mistral Large (2407).

Mistral Large (2407) si distingue per le seguenti dimensioni:

  • Design multilingue. Dozzine di lingue supportate, tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco.
  • Buona conoscenza della programmazione. L'addestramento è stato creato con oltre 80 linguaggi di programmazione come Python, Java, C, C++, JavaScript e Bash. È stato addestrato anche su lingue più specifiche come Swift e Fortran.
  • Incentrato sull'agente. Le migliori funzionalità di agente con funzione nativa chiamate e output JSON.
  • Motivo avanzato. Matematica e ragionamento all'avanguardia le funzionalità di machine learning.
Vai alla scheda del modello Mistral Large (2407)

Mistral Nemo

Mistral Nemo è il modello proprietario più conveniente di Mistral AI. È la scelta ideale per carichi di lavoro a bassa latenza e attività semplici che possono essere eseguite in blocco, ad esempio classificazione, assistenza clienti e di classificazione. Per ulteriori informazioni, consulta la documentazione di Mistral AI.

Mistral Nemo è ottimizzato per i seguenti casi d'uso:

  • Generazione e classificazione del testo.
  • Creazione di agenti per scenari di assistenza clienti.
  • Generazione di codice, completamento, revisione e commenti. Supporta tutti i linguaggi di programmazione principali.
Vai alla scheda del modello Mistral Nemo

Codestral

Codestral è un modello generativo progettato e ottimizzato appositamente per le attività di generazione di codice, tra cui il compilamento automatico e il completamento del codice. Codestral è stato addestrato su più di 80 linguaggi di programmazione, il che gli consente di avere un buon rendimento sia con i linguaggi comuni sia con quelli meno comuni. Per ulteriori informazioni, consulta la sezione sulla generazione del codice di Mistral AI documentazione.

Codestral è ottimizzato per i seguenti casi d'uso:

  • Generazione di codice, completamento del codice, suggerimenti e traduzione.
  • Comprendere il codice per fornire un riepilogo e una spiegazione del codice.
  • Controllare la qualità del codice aiutandoti a eseguire il refactoring del codice, a correggere i bug e a generare casi di test.
Vai alla scheda del modello Codestral

Utilizzare i modelli di IA Mistral

Quando invii richieste per utilizzare i modelli di Mistral AI, utilizza i seguenti nomi:

  • Per Mistral Large (2407), utilizza mistral-large@2407.
  • Per Mistral Nemo, usa mistral-nemo@2407.
  • Per Codestral, utilizza codestral@2405.

Ti consigliamo di utilizzare le versioni del modello che includono un suffisso inizia con il simbolo @ a causa delle possibili differenze le versioni del modello. Se non specifichi una versione del modello, viene usata l'ultima versione sempre utilizzata, il che può inavvertitamente influire sui flussi di lavoro quando modifiche.

Per saperne di più sull'utilizzo dell'SDK Mistral AI, consulta il Documentazione di Mistral AI Vertex AI.

Prima di iniziare

Per utilizzare i modelli di IA di Mistral con Vertex AI, devi eseguire i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com) deve essere attivato per utilizzare Vertex AI. Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.

Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare il partner di grandi dimensioni. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Vai a una delle seguenti schede del modello di Model Garden e fai clic su Abilita:

Effettuare una chiamata in modalità flusso a un modello di IA Mistral

L'esempio seguente effettua una chiamata in streaming a un modello di IA di Mistral.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta al publisher endpoint del modello.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • LOCATION: una regione che supporta Modelli di IA Mistral.
  • MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
  • ROLE: il ruolo associato a per creare un nuovo messaggio email. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli attiva con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello.
  • STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza da parte dell'utente finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
  • CONTENT: i contenuti, ad esempio del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token è di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corpo JSON della richiesta:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json. ed esegui questo comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Fai una chiamata unaria a un modello AI di Mistral

L'esempio seguente esegue una chiamata unaria a un modello di IA Mistral.

REST

Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:

  • LOCATION: una regione che supporta Modelli di IA Mistral.
  • MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
  • ROLE: il ruolo associato a per creare un nuovo messaggio email. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli attiva con turni alternati user e assistant. Se il messaggio finale utilizza il ruolo assistant, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello.
  • STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza da parte dell'utente finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
  • CONTENT: i contenuti, ad esempio del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token è di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON della richiesta:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json. ed esegui questo comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Disponibilità e quote per la regione del modello AI di Mistral

Per i modelli Mistral AI, viene applicata una quota per ogni regione in cui il modello viene disponibili. La quota è specificata in query al minuto (QPM) e token per minuto (TPM). Il TPM include token di input e di output.

Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun modello AI di Mistral sono elencate nelle seguenti tabelle:

Mistral Large (2407)

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 60 QPM, 200.000 TPM 128.000 token
europe-west4 60 QPM, 200.000 TPM 128.000 token

Mistral Nemo

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 60 QPM, 200.000 TPM 128.000 token
europe-west4 60 QPM, 200.000 TPM 128.000 token

Codestral

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 60 QPM, 200.000 TPM 32.000 token
europe-west4 60 QPM, 200.000 TPM 32.000 token

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più su quote, consulta Utilizzare le quote.