I modelli di IA di Mistral su Vertex AI offrono modelli completamente gestiti e serverless come API. Per utilizzare un modello Mistral AI su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli di AI di Mistral utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.
Puoi trasmettere le risposte in streaming per ridurre la percezione della latenza dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.
Paghi i modelli di IA di Mistral man mano che li utilizzi (a consumo). Per i prezzi di pagamento a consumo, consulta i prezzi dei modelli di IA di Mistral nella pagina dei prezzi di Vertex AI.
Modelli Mistral AI disponibili
Mistral AI offre i seguenti modelli per l'utilizzo in Vertex AI. Per accedere a un modello di IA Mistral, vai alla relativa Scheda del modello di Model Garden.
Mistral grande (2407)
Mistral Large (2407) è il modello di punta di Mistral AI per la generazione di testo. Raggiunge le migliori capacità di ragionamento e può essere utilizzato per attività multilingue, tra cui comprensione del testo, trasformazione e programmazione di classificazione. Per saperne di più, vedi il post di Mistral AI su Mistral Large (2407).
Mistral Large (2407) si distingue per le seguenti dimensioni:
- Design multilingue. Dozzine di lingue supportate, tra cui inglese, francese, tedesco, spagnolo, italiano, cinese, giapponese, coreano, portoghese, olandese e polacco.
- Buona conoscenza della programmazione. L'addestramento è stato creato con oltre 80 linguaggi di programmazione come Python, Java, C, C++, JavaScript e Bash. È stato addestrato anche su lingue più specifiche come Swift e Fortran.
- Incentrato sull'agente. Le migliori funzionalità di agente con funzione nativa chiamate e output JSON.
- Motivo avanzato. Matematica e ragionamento all'avanguardia le funzionalità di machine learning.
Mistral Nemo
Mistral Nemo è il modello proprietario più conveniente di Mistral AI. È la scelta ideale per carichi di lavoro a bassa latenza e attività semplici che possono essere eseguite in blocco, ad esempio classificazione, assistenza clienti e di classificazione. Per ulteriori informazioni, consulta la documentazione di Mistral AI.
Mistral Nemo è ottimizzato per i seguenti casi d'uso:
- Generazione e classificazione del testo.
- Creazione di agenti per scenari di assistenza clienti.
- Generazione di codice, completamento, revisione e commenti. Supporta tutti i linguaggi di programmazione principali.
Codestral
Codestral è un modello generativo progettato e ottimizzato appositamente per le attività di generazione di codice, tra cui il compilamento automatico e il completamento del codice. Codestral è stato addestrato su più di 80 linguaggi di programmazione, il che gli consente di avere un buon rendimento sia con i linguaggi comuni sia con quelli meno comuni. Per ulteriori informazioni, consulta la sezione sulla generazione del codice di Mistral AI documentazione.
Codestral è ottimizzato per i seguenti casi d'uso:
- Generazione di codice, completamento del codice, suggerimenti e traduzione.
- Comprendere il codice per fornire un riepilogo e una spiegazione del codice.
- Controllare la qualità del codice aiutandoti a eseguire il refactoring del codice, a correggere i bug e a generare casi di test.
Utilizzare i modelli di IA Mistral
Quando invii richieste per utilizzare i modelli di Mistral AI, utilizza i seguenti nomi:
- Per Mistral Large (2407), utilizza
mistral-large@2407
. - Per Mistral Nemo, usa
mistral-nemo@2407
. - Per Codestral, utilizza
codestral@2405
.
Ti consigliamo di utilizzare le versioni del modello che includono un suffisso
inizia con il simbolo @
a causa delle possibili differenze
le versioni del modello. Se non specifichi una versione del modello, viene usata l'ultima versione
sempre utilizzata, il che può inavvertitamente influire sui flussi di lavoro quando
modifiche.
Per saperne di più sull'utilizzo dell'SDK Mistral AI, consulta il Documentazione di Mistral AI Vertex AI.
Prima di iniziare
Per utilizzare i modelli di IA di Mistral con Vertex AI, devi eseguire i seguenti passaggi. L'API Vertex AI
(aiplatform.googleapis.com
) deve essere attivato per utilizzare
Vertex AI. Se hai già un progetto esistente con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.
Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare il partner di grandi dimensioni. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Vai a una delle seguenti schede del modello di Model Garden e fai clic su Abilita:
Effettuare una chiamata in modalità flusso a un modello di IA Mistral
L'esempio seguente effettua una chiamata in streaming a un modello di IA di Mistral.
REST
Dopo aver configurato l'ambiente, puoi utilizzare REST per testare un prompt di testo. Il seguente esempio invia una richiesta al publisher endpoint del modello.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta Modelli di IA Mistral.
- MODEL: il nome del modello che vuoi utilizzare. Nel
corpo della richiesta, escludi il numero di versione del
modello
@
. - ROLE: il ruolo associato a
per creare un nuovo messaggio email. Puoi specificare un
user
o unassistant
. Il primo messaggio deve utilizzare il ruolouser
. I modelli attiva con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello. - STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta su
true
per trasmettere la risposta in streaming e sufalse
per restituirla tutta insieme. - CONTENT: i contenuti, ad esempio
del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Fai una chiamata unaria a un modello AI di Mistral
L'esempio seguente esegue una chiamata unaria a un modello di IA Mistral.
REST
Dopo configurare l'ambiente, puoi usare REST per testare un prompt di testo. Il seguente esempio invia una richiesta all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta Modelli di IA Mistral.
- MODEL: il nome del modello che vuoi utilizzare. Nel
corpo della richiesta, escludi il numero di versione del
modello
@
. - ROLE: il ruolo associato a
per creare un nuovo messaggio email. Puoi specificare un
user
o unassistant
. Il primo messaggio deve utilizzare il ruolouser
. I modelli attiva con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare la modalità questo per vincolare parte della risposta del modello. - STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta su
true
per trasmettere la risposta in streaming e sufalse
per restituirla tutta insieme. - CONTENT: i contenuti, ad esempio
del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Corpo JSON della richiesta:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Disponibilità e quote per la regione del modello AI di Mistral
Per i modelli Mistral AI, viene applicata una quota per ogni regione in cui il modello viene disponibili. La quota è specificata in query al minuto (QPM) e token per minuto (TPM). Il TPM include token di input e di output.
Le regioni supportate, le quote predefinite e la lunghezza massima del contesto per ciascun modello AI di Mistral sono elencate nelle seguenti tabelle:
Mistral Large (2407)
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 128.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 128.000 token |
Mistral Nemo
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 128.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 128.000 token |
Codestral
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-central1 |
60 QPM, 200.000 TPM | 32.000 token |
europe-west4 |
60 QPM, 200.000 TPM | 32.000 token |
Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più su quote, consulta Utilizzare le quote.