I modelli di IA di Mistral su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello AI di Mistral su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli di AI di Mistral utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.
Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.
Paghi i modelli di IA di Mistral man mano che li utilizzi (a consumo). Per i prezzi di pagamento a consumo, consulta i prezzi dei modelli di IA di Mistral nella pagina dei prezzi di Vertex AI.
Modelli di IA Mistral disponibili
I seguenti modelli sono disponibili da Mistral AI per l'utilizzo in Vertex AI. Per accedere a un modello di IA Mistral, vai alla relativa scheda del modello in Model Garden.
Mistral Large (24.11)
Mistral Large (24.11) è la versione più recente del modello Large di Mistral AI, ora con funzionalità di ragionamento e chiamata di funzioni migliorate.
- Incentrate sugli agenti: funzionalità agenti di classe superiore con chiamate di funzioni native e output JSON.
- Multilingue per progettazione: dozzine di lingue supportate, tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco
- Esperto di programmazione: è stato addestrato su oltre 80 linguaggi di programmazione, come Python, Java, C, C++, JavaScript e Bash. Addestrato anche su lingue più specifiche come Swift e Fortran
- Ragionamento avanzato: funzionalità matematiche e di ragionamento all'avanguardia.
Mistral Large (2407)
Mistral Large (2407) è il modello di punta di Mistral AI per la generazione di testo. Offre capacità di ragionamento di primo livello e può essere utilizzata per attività multilingual complesse, tra cui comprensione del testo, trasformazione e generazione di codice. Per ulteriori informazioni, consulta il post di Mistral AI su Mistral Large (2407).
Mistral Large (2407) si distingue per le seguenti dimensioni:
- Multilingue per progettazione: dozzine di lingue supportate, tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco.
- Esperto di programmazione: è stato addestrato su oltre 80 linguaggi di programmazione, come Python, Java, C, C++, JavaScript e Bash. È stato addestrato anche su lingue più specifiche come Swift e Fortran.
- Incentrate sugli agenti: funzionalità agenti di classe superiore con chiamate di funzioni native e output JSON.
- Ragionamento avanzato: funzionalità matematiche e di ragionamento all'avanguardia.
Mistral Nemo
Mistral Nemo è il modello proprietario più conveniente di Mistral AI. È la scelta ideale per i carichi di lavoro a bassa latenza e le attività semplici che possono essere eseguite collettivamente, come la classificazione, l'assistenza clienti e la generazione di testo. Per ulteriori informazioni, consulta la documentazione di Mistral AI.
Mistral Nemo è ottimizzato per i seguenti casi d'uso:
- Generazione e classificazione del testo.
- Creazione di agenti per scenari di assistenza clienti.
- Generazione di codice, completamento, revisione e commenti. Supporta tutti i linguaggi di programmazione principali.
Codestral
Codestral è un modello generativo progettato e ottimizzato appositamente per le attività di generazione di codice, tra cui il fill-in-the-middle e il completamento del codice. Codestral è stato addestrato su più di 80 linguaggi di programmazione, il che gli consente di avere un buon rendimento sia con i linguaggi comuni sia con quelli meno comuni. Per ulteriori informazioni, consulta la documentazione sulla generazione di codice di Mistral AI.
Codestral è ottimizzato per i seguenti casi d'uso:
- Generazione di codice, completamento del codice, suggerimenti e traduzione.
- Comprendere il codice per fornire un riepilogo e una spiegazione del codice.
- Esamina la qualità del codice aiutandoti a ristrutturarlo, correggere i bug e generare casi di test.
Utilizzare i modelli di AI di Mistral
Quando invii richieste per utilizzare i modelli di Mistral AI, utilizza i seguenti nomi:
- Per Mistral Large (24.11), utilizza
mistral-large-2411
. - Per Mistral Large (2407), utilizza
mistral-large@2407
. - Per Mistral Nemo, utilizza
mistral-nemo@2407
. - Per Codestral, utilizza
codestral@2405
.
Per ulteriori informazioni sull'utilizzo dell'SDK Mistral AI, consulta la documentazione di Vertex AI su Mistral AI.
Prima di iniziare
Per utilizzare i modelli di IA di Mistral con Vertex AI, devi eseguire i seguenti passaggi. Per utilizzare Vertex AI, è necessario attivare l'API Vertex AI
(aiplatform.googleapis.com
). Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.
Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare i modelli di partner. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Vai a una delle schede dei modelli di Mistral AI Model Garden e fai clic su Attiva.
Fai una chiamata in streaming a un modello di IA Mistral
L'esempio seguente effettua una chiamata in streaming a un modello di IA di Mistral.
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION: una regione che supporta modelli di IA Mistral.
- MODEL: il nome del modello che vuoi utilizzare. Nel
corpo della richiesta, escludi il numero di versione del
modello
@
. - ROLE: il ruolo associato a un messaggio. Puoi specificare un
user
o unassistant
. Il primo messaggio deve utilizzare il ruolouser
. I modelli funzionano con curveuser
eassistant
alternate. Se il messaggio finale utilizza il ruoloassistant
, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello. - STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su
true
per trasmettere la risposta in streaming e sufalse
per restituirla tutta insieme. - CONTENT: i contenuti, ad esempio il testo, del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Fai una chiamata unaria a un modello AI di Mistral
L'esempio seguente esegue una chiamata unaria a un modello di IA Mistral.
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:
- LOCATION: una regione che supporta modelli di IA Mistral.
- MODEL: il nome del modello che vuoi utilizzare. Nel
corpo della richiesta, escludi il numero di versione del
modello
@
. - ROLE: il ruolo associato a un messaggio. Puoi specificare un
user
o unassistant
. Il primo messaggio deve utilizzare il ruolouser
. I modelli funzionano con curveuser
eassistant
alternate. Se il messaggio finale utilizza il ruoloassistant
, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello. - STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su
true
per trasmettere la risposta in streaming e sufalse
per restituirla tutta insieme. - CONTENT: i contenuti, ad esempio il testo, del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Disponibilità e quote per la regione del modello AI Mistral
Per i modelli di IA di Mistral, viene applicata una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). Il TPM include token di input e di output.
Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun modello AI di Mistral sono elencate nelle seguenti tabelle:
Mistral Large (24.11)
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 128.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 128.000 token |
Mistral Large (2407)
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 128.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 128.000 token |
Mistral Nemo
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 128.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 128.000 token |
Codestral
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 32.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 32.000 token |
Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.