Puoi trasmettere in streaming le risposte di Claude per ridurre la percezione della latenza dell'utente finale. Una risposta in modalità flusso utilizza eventi inviati dal server (SSE) per trasmettere in modo incrementale la risposta.
Paghi i modelli Claude man mano che li utilizzi (pagamento a consumo) oppure paghi un importo fisso quando si utilizza la velocità effettiva di provisioning. Per i prezzi con pagamento a consumo, vedi Modelli Claude di Anthropic sui prezzi di Vertex AI .
Modelli Anthropic Claude disponibili
I seguenti modelli sono disponibili di Anthropic per l'uso in Vertex AI. Per accedere a un modello Anthropic Claude, vai al suo Model Garden una scheda del modello.
Claude 3,5 Sonetto
Claude 3.5 Sonet è il modello di AI più potente di Anthropic e mantiene la velocità e il costo di Claude 3 Sonnet, un di livello medio. Claude 3.5 Sonetto dimostra ciò che è possibile grazie all'AI generativa. Claude 3.5 Sonnet è ottimizzato per i seguenti casi d'uso:
Programmazione, come la scrittura, la modifica e l'esecuzione di codice con sofisticate di ragionamento e risoluzione dei problemi.
Gestisci query complesse dell'assistenza clienti comprendendo il contesto degli utenti e per l'orchestrazione di flussi di lavoro in più fasi.
Data science e analisi esplorando dati non strutturati e sfruttando strumenti per la generazione di insight.
Elaborazione visiva, come l'interpretazione di diagrammi e grafici che richiedono immagini la comprensione.
Scrivere contenuti con un tono più naturale e simile a quello umano.
Vai alla scheda del modello Claude 3.5 Sonnet
Claude 3 Opus
Anthropic Claude 3 Opus è il secondo modello di AI più potente di Anthropic, con forti il rendimento in attività altamente complesse. Può navigare nei prompt aperti scenari inesplorati con una notevole fluidità e una comprensione di tipo umano. Claude 3 Opus è ottimizzato per i seguenti casi d'uso:
Automazione delle attività, come la programmazione e la pianificazione interattive o l'esecuzione di attività complesse le azioni su API e database.
Attività di ricerca e sviluppo, come la revisione della ricerca, il brainstorming e generazione di ipotesi e test di prodotti.
Attività strategiche, come l'analisi avanzata di grafici, diagrammi, dati finanziari e tendenze del mercato e previsioni.
Attività di visione, come l'elaborazione delle immagini per restituire un output di testo. Inoltre, l'analisi di tabelle, grafici, diagrammi tecnici, report e altri contenuti visivi.
Vai alla scheda del modello di Claude 3 Opus
Haiku: Claude3
Anthropic Claude 3 Haiku è il modello di visione e testo più veloce e compatto di Anthropic per risposte quasi immediate a semplici query, il tutto per esperienze di AI senza interruzioni che imitano le interazioni umane. Claude 3 Haiku è ottimizzato per i seguenti casi d'uso:
Interazioni e traduzioni dei clienti in tempo reale.
Moderazione dei contenuti per rilevare comportamenti sospetti o richieste dei clienti.
Le attività che consentono di risparmiare sui costi, come la gestione dell'inventario e l'estrazione delle conoscenze e non strutturati.
Attività di visione, come l'elaborazione delle immagini per restituire l'output di testo e l'analisi di tabelle, grafici, diagrammi tecnici, report e altri contenuti visivi.
Vai alla scheda del modello Haiku di Claude 3
Claude3 Sonetto
Anthropic Claude 3 Sonnet è l'affidabile combinazione di abilità e abilità di Anthropic è progettato per essere affidabile per i deployment dell'AI su larga scala diversi casi d'uso. Claude 3 Sonnet è ottimizzato per i seguenti casi d'uso:
Elaborazione dei dati, tra cui RAG (Retrieval Augmented Generation) e la ricerca recupero.
Attività di vendita, come consigli sui prodotti, previsioni e marketing.
Attività che fanno risparmiare tempo, come la generazione di codice, il controllo qualità e il riconoscimento dei caratteri (OCR) nelle immagini.
Attività di visione, come l'elaborazione delle immagini per restituire un output di testo. Inoltre, l'analisi di tabelle, grafici, diagrammi tecnici, report e altri contenuti visivi.
Vai alla scheda del modello Claude 3 Sonnet
Utilizzare i modelli Claude
Puoi utilizzare un SDK Anthropic o i comandi curl per inviare richieste al Endpoint Vertex AI utilizzando i seguenti nomi di modello:
- Per Claude 3.5 Sonnet, usa
claude-3-5-sonnet@20240620
. - Per Claude 3 Opus, usa
claude-3-opus@20240229
. - Per Claude 3 Haiku, usa
claude-3-haiku@20240307
. - Per Claude 3 Sonnet, usa
claude-3-sonnet@20240229
.
Consigliamo di utilizzare le versioni del modello Anthropic Claude che includono un suffisso
che inizia con il simbolo @
(ad esempio claude-3-5-sonnet@20240620
o
claude-3-haiku@20240307
) a causa delle possibili differenze tra i modelli
versions. Se non specifichi una versione del modello, la versione più recente è sempre
che può inavvertitamente influire sui flussi di lavoro quando
modifiche.
Prima di iniziare
Per utilizzare i modelli Anthropic Claude con Vertex AI, devi eseguire
i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com
) deve
abilitare l'uso di Vertex AI. Se hai già un progetto con
abilitata l'API Vertex AI, puoi utilizzare quel progetto anziché creare
un nuovo progetto.
Assicurati di disporre delle autorizzazioni necessarie per attivare i modelli Anthropic Claude. Per ulteriori informazioni, vedi Concedere le autorizzazioni richieste.
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Vertex AI.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Attiva l'API Vertex AI.
- Assicurati di disporre delle autorizzazioni per abilitare i modelli Anthropic Claude e per invia un prompt. Per ulteriori informazioni, vedi Imposta le autorizzazioni richieste per attivare i modelli Claude e inviare i prompt.
- Vai a una delle seguenti schede dei modelli di Model Garden, quindi fai clic su attiva:
Utilizzare l'SDK Anthropic
Puoi effettuare richieste API ai modelli Anthropic Claude utilizzando SDK Anthropic Claude. Per saperne di più, vedi le seguenti:
- Riferimento per l'API Claude messages
- Libreria API Anthropic Python
- Libreria API Anthropic Vertex AI TypeScript
Effettuare una chiamata in modalità flusso a un modello Claude utilizzando l'SDK Anthropic Vertex
Il seguente esempio di codice utilizza l'SDK Anthropic Vertex per eseguire un flusso di dati una chiamata a un modello antropico di Claude.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per ulteriori informazioni, consulta documentazione di riferimento dell'API Python.
Effettua una chiamata unaaria a un modello Claude utilizzando l'SDK Anthropic Vertex
Il seguente esempio di codice utilizza l'SDK Anthropic Vertex per eseguire una una chiamata a un modello antropico di Claude.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per ulteriori informazioni, consulta documentazione di riferimento dell'API Python.
Usa un comando curl
Puoi utilizzare un comando curl per effettuare una richiesta all'endpoint Vertex AI. Il comando curl specifica il modello Anthropic Claude supportato che vuoi utilizzare.
Consigliamo di utilizzare le versioni del modello Anthropic Claude che includono un suffisso
che inizia con il simbolo @
(ad esempio claude-3-5-sonnet@20240620
o
claude-3-haiku@20240307
) a causa delle possibili differenze tra i modelli
versions. Se non specifichi una versione del modello, la versione più recente è sempre
che può inavvertitamente influire sui flussi di lavoro quando
modifiche.
L'argomento seguente mostra come creare un comando curl e include un esempio curl.
REST
Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST al endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta l'antropica Claude
di grandi dimensioni.
Claude 3.5 Sonnet è disponibile nelle seguenti regioni:us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-central1 (Iowa)
us-east5 (Ohio)
europe-west1 (Belgium)
europe-west4 (Netherlands)
us-central1 (Iowa)
us-east5 (Ohio)
asia-southeast1 (Singapore)
- MODEL: il nome del modello che vuoi utilizzare.
- ROLE: il ruolo associato a
. Puoi specificare un
user
o unassistant
. Il primo messaggio deve usare il ruolouser
. Modelli Claude attiva con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare questo per vincolare parte della risposta del modello. - STREAM: un valore booleano che specifica se la risposta
o meno. Trasmetti la tua risposta per ridurre la percezione della latenza dell'utilizzo finale. Imposta su
true
per trasmettere la risposta in modalità flusso efalse
per restituire la risposta all'indirizzo una volta sola. - CONTENT: i contenuti, ad esempio il testo, di
user
oassistant
messaggio. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
- TOP_P (Facoltativo):
Top-P cambia il modo in cui il modello seleziona i token per l'output. Token selezionati
dal più probabile (vedi top-K) al meno probabile fino alla somma delle probabilità
equivale al valore di top-P. Ad esempio, se i token A, B e C hanno una probabilità di
0,3, 0,2 e 0,1 e il valore di top-P è
0.5
, il modello seleziona A o B come token successivo utilizzando la temperatura ed esclude C come candidato.Specifica un valore più basso per risposte meno casuali e un valore più alto per più risposte risposte casuali.
- TOP_K(Facoltativo):
Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K di
1
significa che il successivo token selezionato è il più probabile tra tutti nel vocabolario del modello (chiamato anche decodifica greedy), mentre una top-K di3
significa che il token successivo viene selezionato tra i tre probabili token utilizzando la temperatura.Per ogni passaggio di selezione dei token, vengono mostrati i token top-K con il vengono campionate. Quindi i token vengono ulteriormente filtrati in base a top-P con il token finale selezionato utilizzando il campionamento della temperatura.
Specifica un valore più basso per risposte meno casuali e un valore più alto per più risposte risposte casuali.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Corpo JSON della richiesta:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Comando curl di esempio
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Utilizzo di strumenti (chiamate di funzione)
I modelli antropici di Claude supportano strumenti e chiamate di funzione per migliorare le funzionalità di machine learning. Per scoprire di più, consulta la Panoramica sull'utilizzo degli strumenti. nella documentazione Anthropic.
I seguenti esempi mostrano come utilizzare gli strumenti con lo strumento Anthropic SDK o un comando curl. Gli esempi cercano i ristoranti nelle vicinanze di San Francisco attualmente aperti.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per ulteriori informazioni, consulta documentazione di riferimento dell'API Python.
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta l'antropica Claude
di grandi dimensioni.
Claude 3.5 Sonnet è disponibile nelle seguenti regioni:us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-central1 (Iowa)
us-east5 (Ohio)
europe-west1 (Belgium)
europe-west4 (Netherlands)
us-central1 (Iowa)
us-east5 (Ohio)
asia-southeast1 (Singapore)
- MODEL: il nome del modello che vuoi utilizzare.
- Per Claude 3 Opus, usa
claude-3-opus@20240229
. - Per Claude 3 Sonnet, usa
claude-3-sonnet@20240229
. - Per Claude 3 Haiku, usa
claude-3-haiku@20240307
.
- Per Claude 3 Opus, usa
- ROLE: il ruolo associato a
. Puoi specificare un
user
o unassistant
. Il primo messaggio deve usare il ruolouser
. Modelli Claude attiva con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare questo per vincolare parte della risposta del modello. - STREAM: un valore booleano che specifica
indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta
true
per trasmettere la risposta in streaming efalse
per restituire la risposta contemporaneamente. - CONTENT: i contenuti, ad esempio
del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Corpo JSON della richiesta:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Disponibilità della regione antropica Claude
Claude 3.5 Sonnet è disponibile nelle seguenti regioni:
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-central1 (Iowa)
us-east5 (Ohio)
europe-west1 (Belgium)
europe-west4 (Netherlands)
us-central1 (Iowa)
us-east5 (Ohio)
asia-southeast1 (Singapore)
Quote di Anthropic Claude e lunghezza del contesto supportata
Per i modelli Claude, viene applicata una quota per ogni regione in cui il modello viene disponibili. La quota è specificata in query al minuto (QPM) e token per minuto (TPM). TPM include token di input e di output.
Il limite di quota predefinito e la lunghezza del contesto supportata per Claude 3.5 Sonetto:
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-east5 (Ohio) |
Supporta la quota dinamica condivisa | 200.000 token |
europe-west1 (Belgium) |
Supporta la quota dinamica condivisa | 200.000 token |
Il limite di quota predefinito e la lunghezza del contesto supportata per Claude 3 Opus:
Regione | Limite quota predefinito | Lunghezza del contesto supportata |
---|---|---|
us-east5 (Ohio) |
240 QPM, 100.000 TPM | 200.000 token |
Il limite di quota predefinito e la lunghezza del contesto supportata per Gli Haiku di Claude 3 sono:
Regione | Limite quota predefinito | Lunghezza del contesto supportata |
---|---|---|
us-central1 (Iowa) |
240 QPM, 100.000 TPM | 200.000 token |
us-east5 (Ohio) |
240 QPM, 100.000 TPM | 200.000 token |
europe-west1 (Belgium) |
240 QPM, 100.000 TPM | 200.000 token |
europe-west4 (Netherlands) |
240 QPM, 100.000 TPM | 200.000 token |
Il limite di quota predefinito e la lunghezza del contesto supportata per Claude 3 Sonnet:
Regione | Limite quota predefinito | Lunghezza del contesto supportata |
---|---|---|
us-central1 (Iowa) |
240 QPM, 100.000 TPM | 200.000 token |
us-east5 (Ohio) |
240 QPM, 100.000 TPM | 200.000 token |
asia-southeast1 (Singapore) |
240 QPM, 100.000 TPM | 200.000 token |
Se vuoi aumentare una qualsiasi delle tue quote per l'AI generativa su Vertex AI, puoi usa la console Google Cloud per richiedere un aumento della quota. Per scoprire di più su quote, consulta Utilizzare le quote.
Abilita i modelli Claude per gli utenti
Affinché un utente possa abilitare i modelli Anthropic Claude ed effettuare una richiesta di prompt, l'amministratore deve impostare le autorizzazioni richieste e verifica che il criterio dell'organizzazione consenta l'uso delle API richieste.
Imposta le autorizzazioni richieste
Per utilizzare i modelli Anthropic Claude sono necessari i ruoli e le autorizzazioni seguenti:
All'utente deve essere concessa la licenza per il Gestore entitlement di approvvigionamento consumer Ruolo IAM (Identity and Access Management). Qualsiasi utente a cui è stato concesso questo ruolo può abilitare un modello Anthropic Claude in Model Garden.
All'utente deve essere concessa l'autorizzazione
aiplatform.endpoints.predict
. Questa autorizzazione è incluso nel ruolo IAM Utente Vertex AI. Per ulteriori informazioni le informazioni, vedi Utente Vertex AI e Controllo dell'accesso.
Console
Per concedere IAM al Gestore entitlement di approvvigionamento consumer ruoli a un utente, vai alla pagina IAM.
Nella colonna Entità, individua l'utente. principal per il quale hai attivare l'accesso ai modelli Anthropic Claude, quindi fare clic su Modifica entità nella riga corrispondente.
Nel riquadro Modifica accesso, fai clic su
Aggiungi un altro ruolo.In Seleziona un ruolo, seleziona Gestore diritti approvvigionamento consumer.
Nel riquadro Modifica accesso, fai clic su
Aggiungi un altro ruolo.In Seleziona un ruolo, seleziona Utente Vertex AI.
Fai clic su Salva.
gcloud
-
Nella console Google Cloud, attiva Cloud Shell.
Concedi il ruolo Gestore entitlement di approvvigionamento consumer necessario abilitare i modelli Anthropic Claude in Model Garden
gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
Concedi il ruolo Vertex AI User che include
aiplatform.endpoints.predict
autorizzazione necessaria per rendere richieste di prompt:gcloud projects add-iam-policy-binding PROJECT_ID \ --member=PRINCIPAL --role=roles/aiplatform.user
Sostituisci
PRINCIPAL
con l'identificatore di l'entità. L'identificatore assume la formauser|group|serviceAccount:email
odomain:domain
, per ad esempiouser:cloudysanfrancisco@gmail.com
,group:admins@example.com
,serviceAccount:test123@example.domain.com
odomain:example.domain.com
.L'output è un elenco di associazioni di criteri che include quanto segue:
- members: - user:PRINCIPAL role: roles/roles/consumerprocurement.entitlementManager
Per ulteriori informazioni, vedi Assegna un singolo ruolo e
gcloud projects add-iam-policy-binding
.
Imposta il criterio dell'organizzazione
Per attivare e utilizzare i modelli Anthropic Claude, devi modificare il constraints/serviceuser.services
criterio dell'organizzazione. Questo criterio concede l'accesso alle seguenti API:
- Cloud Commerce Consumer Procurement API -
cloudcommerceconsumerprocurement.googleapis.com
- API Commerce Agreement -
commerceagreement.googleapis.com
Se la tua organizzazione imposta un criterio dell'organizzazione su
limitare l'utilizzo del servizio,
un amministratore dell'organizzazione
deve verificare
cloudcommerceconsumerprocurement.googleapis.com
e
commerceagreement.googleapis.com
consentiti da
l'impostazione del criterio dell'organizzazione.