Modelli di AI Mistral

I modelli di IA di Mistral su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello AI di Mistral su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli di AI di Mistral utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.

Paghi i modelli di IA di Mistral man mano che li utilizzi (a consumo). Per i prezzi di pagamento a consumo, consulta i prezzi dei modelli di IA di Mistral nella pagina dei prezzi di Vertex AI.

Modelli di IA Mistral disponibili

I seguenti modelli sono disponibili da Mistral AI per l'utilizzo in Vertex AI. Per accedere a un modello di IA Mistral, vai alla relativa scheda del modello in Model Garden.

Mistral Large (24.11)

Mistral Large (24.11) è la versione più recente del modello Large di Mistral AI, ora con funzionalità di ragionamento e chiamata di funzioni migliorate.

  • Incentrate sugli agenti: funzionalità agenti di classe superiore con chiamate di funzioni native e output JSON.
  • Multilingue per progettazione: dozzine di lingue supportate, tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco
  • Esperto di programmazione: è stato addestrato su oltre 80 linguaggi di programmazione, come Python, Java, C, C++, JavaScript e Bash. Addestrato anche su lingue più specifiche come Swift e Fortran
  • Ragionamento avanzato: funzionalità matematiche e di ragionamento all'avanguardia.
Vai alla scheda del modello Mistral Large (24.11)

Mistral Large (2407)

Mistral Large (2407) è il modello di punta di Mistral AI per la generazione di testo. Offre capacità di ragionamento di primo livello e può essere utilizzata per attività multilingual complesse, tra cui comprensione del testo, trasformazione e generazione di codice. Per ulteriori informazioni, consulta il post di Mistral AI su Mistral Large (2407).

Mistral Large (2407) si distingue per le seguenti dimensioni:

  • Multilingue per progettazione: dozzine di lingue supportate, tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco.
  • Esperto di programmazione: è stato addestrato su oltre 80 linguaggi di programmazione, come Python, Java, C, C++, JavaScript e Bash. È stato addestrato anche su lingue più specifiche come Swift e Fortran.
  • Incentrate sugli agenti: funzionalità agenti di classe superiore con chiamate di funzioni native e output JSON.
  • Ragionamento avanzato: funzionalità matematiche e di ragionamento all'avanguardia.
Vai alla scheda del modello Mistral Large (2407)

Mistral Nemo

Mistral Nemo è il modello proprietario più conveniente di Mistral AI. È la scelta ideale per i carichi di lavoro a bassa latenza e le attività semplici che possono essere eseguite collettivamente, come la classificazione, l'assistenza clienti e la generazione di testo. Per ulteriori informazioni, consulta la documentazione di Mistral AI.

Mistral Nemo è ottimizzato per i seguenti casi d'uso:

  • Generazione e classificazione del testo.
  • Creazione di agenti per scenari di assistenza clienti.
  • Generazione di codice, completamento, revisione e commenti. Supporta tutti i linguaggi di programmazione principali.
Vai alla scheda del modello Mistral Nemo

Codestral

Codestral è un modello generativo progettato e ottimizzato appositamente per le attività di generazione di codice, tra cui il fill-in-the-middle e il completamento del codice. Codestral è stato addestrato su più di 80 linguaggi di programmazione, il che gli consente di avere un buon rendimento sia con i linguaggi comuni sia con quelli meno comuni. Per ulteriori informazioni, consulta la documentazione sulla generazione di codice di Mistral AI.

Codestral è ottimizzato per i seguenti casi d'uso:

  • Generazione di codice, completamento del codice, suggerimenti e traduzione.
  • Comprendere il codice per fornire un riepilogo e una spiegazione del codice.
  • Esamina la qualità del codice aiutandoti a ristrutturarlo, correggere i bug e generare casi di test.
Vai alla scheda del modello Codestral

Utilizzare i modelli di AI di Mistral

Quando invii richieste per utilizzare i modelli di Mistral AI, utilizza i seguenti nomi:

  • Per Mistral Large (24.11), utilizza mistral-large-2411.
  • Per Mistral Large (2407), utilizza mistral-large@2407.
  • Per Mistral Nemo, utilizza mistral-nemo@2407.
  • Per Codestral, utilizza codestral@2405.

Per ulteriori informazioni sull'utilizzo dell'SDK Mistral AI, consulta la documentazione di Vertex AI su Mistral AI.

Prima di iniziare

Per utilizzare i modelli di IA di Mistral con Vertex AI, devi eseguire i seguenti passaggi. Per utilizzare Vertex AI, è necessario attivare l'API Vertex AI (aiplatform.googleapis.com). Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.

Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare i modelli di partner. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Vai a una delle schede dei modelli di Mistral AI Model Garden e fai clic su Attiva.

Fai una chiamata in streaming a un modello di IA Mistral

L'esempio seguente effettua una chiamata in streaming a un modello di IA di Mistral.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • LOCATION: una regione che supporta modelli di IA Mistral.
  • MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
  • ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello.
  • STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
  • CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict

Corpo JSON della richiesta:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Fai una chiamata unaria a un modello AI di Mistral

L'esempio seguente esegue una chiamata unaria a un modello di IA Mistral.

REST

Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • LOCATION: una regione che supporta modelli di IA Mistral.
  • MODEL: il nome del modello che vuoi utilizzare. Nel corpo della richiesta, escludi il numero di versione del modello @.
  • ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello.
  • STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
  • CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON della richiesta:

{
"model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Disponibilità e quote per la regione del modello AI di Mistral

Per i modelli di IA di Mistral, viene applicata una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). Il TPM include token di input e di output.

Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun modello AI di Mistral sono elencate nelle seguenti tabelle:

Mistral Large (24.11)

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 60 QPM, 200.000 TPM 128.000 token
europe-west4 60 QPM, 200.000 TPM 128.000 token

Mistral Large (2407)

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 60 QPM, 200.000 TPM 128.000 token
europe-west4 60 QPM, 200.000 TPM 128.000 token

Mistral Nemo

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 60 QPM, 200.000 TPM 128.000 token
europe-west4 60 QPM, 200.000 TPM 128.000 token

Codestral

Regione Sistema di quote Lunghezza del contesto supportata
us-central1 60 QPM, 200.000 TPM 32.000 token
europe-west4 60 QPM, 200.000 TPM 32.000 token

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.