Puoi trasmettere in streaming le risposte di Claude per ridurre la percezione della latenza dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.
Paghi i modelli Claude man mano che li utilizzi (pagamento a consumo) oppure paghi un importo fisso quando si utilizza la velocità effettiva di provisioning. Per i prezzi con pagamento a consumo, vedi Modelli Claude di Anthropic sui prezzi di Vertex AI .
Modelli Claude disponibili
I seguenti modelli sono disponibili di Anthropic per l'uso in Vertex AI. Per accedere a un modello Claude, vai alla relativa scheda del modello in Model Garden.
Claude 3.5 Sonnet v2
Claude 3.5 Sonnet v2 è un modello all'avanguardia per con attività di ingegneria del software e funzionalità di agente reali. Claude 3.5 Sonnet v2 offre contemporaneamente questi progressi prezzo e velocità come Claude 3.5 Sonnet.
Il modello aggiornato di Claude 3.5 Sonnet è in grado di interagire con strumenti in grado di manipolare l'ambiente desktop di un computer. Per maggiori informazioni informazioni, consulta la documentazione di Anthropic.
Claude 3.5 Sonnet è ottimizzato per i seguenti casi d'uso:
- Attività di agenti e utilizzo di strumenti: Claude 3.5 Sonnet offre un seguito delle istruzioni superiore, selezione degli strumenti, correzione degli errori e ragionamento avanzato per i flussi di lavoro di agenti che richiedono l'utilizzo di strumenti.
- Codifica: per le attività di sviluppo software che vanno dalle migrazioni del codice, alle correzioni e alle traduzioni, Claude 3.5 Sonnet offre ottime prestazioni sia nella pianificazione che nella risoluzione di attività di programmazione complesse.
- Domande e risposte sui documenti: Claude 3.5 Sonnet combina una solida comprensione del contesto, un ragionamento avanzato e la sintesi per fornire risposte accurate e simili a quelle umane.
- Estrazione visiva dei dati con la visione leader di Claude 3.5 Sonnet competenze specifiche, Claude 3.5 Sonnet è in grado di estrarre dati non elaborati dalle immagini come elementi grafici come parte dei flussi di lavoroAIA.
- Generazione e analisi dei contenuti: Claude 3.5 Sonnet può a comprendere le sfumature e il tono dei contenuti, generando contenuti più accattivanti e analizzare i contenuti a un livello più approfondito.
Vai alla scheda del modello Claude 3.5 Sonnet v2
Claude 3.5 Sonnet
Claude 3.5: Sonetto degli antropici supera Claude 3 opus diverse valutazioni di Anthropic, con la velocità e il costo dei titoli di livello intermedio Claude3 Sonetto. Claude 3.5 Sonnet è ottimizzato per i seguenti casi d'uso:
Programmazione, come la scrittura, la modifica e l'esecuzione di codice con sofisticate di ragionamento e risoluzione dei problemi.
Gestisci query complesse dell'assistenza clienti comprendendo il contesto degli utenti e per l'orchestrazione di flussi di lavoro in più fasi.
Data science e analisi esplorando dati non strutturati e sfruttando strumenti per la generazione di insight.
Elaborazione visiva, ad esempio l'interpretazione di diagrammi e grafici che richiedono immagini la comprensione.
Scrivere contenuti con un tono più naturale e simile a quello umano.
Vai alla scheda del modello Claude 3.5 Sonnet
Claude 3 Opus
Claude3 Opus di Anthropic è un potente modello di AI con prestazioni di alto livello per attività complesse. È in grado di esplorare prompt aperti e scenari non visivi con notevole fluidità e comprensione di tipo umano. Claude 3 Opus è ottimizzato per i seguenti casi d'uso:
L'automazione delle attività, ad esempio la programmazione e la pianificazione interattive o l'esecuzione di azioni complesse su API e database.
Attività di ricerca e sviluppo, come la revisione della ricerca, il brainstorming e generazione di ipotesi e test di prodotti.
Attività di strategia, come l'analisi avanzata di grafici e tabelle, dati finanziari e finanziari, tendenze di mercato e previsioni.
Attività di visione, come l'elaborazione delle immagini per restituire un output di testo. Inoltre, analisi di tabelle, grafici, diagrammi tecnici, report e altri contenuti visivi.
Vai alla scheda del modello Claude 3 Opus
Claude 3 Haiku
Claude3 di Anthropic, Haiku è il modello di testo e visione più veloce di Anthropic per risposte quasi immediate a semplici query, pensate per esperienze AI senza interruzioni che descrive il tentativo di imitare le interazioni umane. Claude 3 Haiku è ottimizzato per i seguenti casi d'uso:
Interazioni e traduzioni dei clienti in tempo reale.
Moderazione dei contenuti per rilevare comportamenti sospetti o richieste dei clienti.
Attività di risparmio sui costi, come la gestione dell'inventario e l'estrazione di conoscenza dai dati non strutturati.
Attività di visione, come l'elaborazione di immagini per restituire un'uscita di testo, l'analisi di grafici, tabelle, diagrammi tecnici, report e altri contenuti visivi.
Vai alla scheda del modello Claude 3 Haiku
Claude3 Sonetto
Claude 3 di Anthropic è l'affidabile combinazione di abilità e la velocità. È progettato per essere affidabile per gli implementazioni di IA su larga scala in una varietà di casi d'uso. Claude 3 Sonnet è ottimizzato per i seguenti casi d'uso:
Elaborazione dei dati, tra cui RAG (Retrieval Augmented Generation) e la ricerca recupero.
Attività di vendita, come consigli sui prodotti, previsioni e marketing.
Attività che fanno risparmiare tempo, come la generazione di codice, il controllo qualità e il riconoscimento dei caratteri (OCR) nelle immagini.
Attività di visione, come l'elaborazione di immagini per restituire un output di testo. Inoltre, l'analisi di tabelle, grafici, diagrammi tecnici, report e altri contenuti visivi.
Vai alla scheda del modello Claude 3 Sonnet
Utilizzare i modelli Claude
Puoi utilizzare l'SDK di Anthropic o i comandi curl per inviare richieste al Endpoint Vertex AI utilizzando i seguenti nomi di modello:
- Per Claude 3.5 Sonnet v2, utilizza
claude-3-5-sonnet-v2@20241022
. - Per Claude 3.5 Sonnet, usa
claude-3-5-sonnet@20240620
. - Per Claude 3 Opus, usa
claude-3-opus@20240229
. - Per Claude 3 Haiku, utilizza
claude-3-haiku@20240307
. - Per Claude 3 Sonnet, utilizza
claude-3-sonnet@20240229
.
Le versioni del modello Claude di Anthropic devono essere utilizzate con un suffisso che inizia con un
Simbolo @
(ad esempio claude-3-5-sonnet-v2@20241022
o
claude-3-haiku@20240307
) per garantire un comportamento coerente.
Prima di iniziare
Per utilizzare i modelli Claude di Anthropic con Vertex AI, devi eseguire la
i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com
) deve
abilitare l'uso di Vertex AI. Se hai già un progetto con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.
Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare i modelli dei partner. Per ulteriori informazioni, vedi Concedere le autorizzazioni richieste.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Vai a una delle seguenti schede dei modelli di Model Garden, quindi fai clic su attiva:
Utilizzare l'SDK di Anthropic
Puoi inviare richieste API ai modelli Claude di Anthropic utilizzando l'SDK Anthropic Claude. Per saperne di più, vedi le seguenti:
- Riferimento per l'API Claude messages
- Libreria API Python di Anthropoic
- Libreria API TypeScript di Vertex AI di Anthropic
Effettuare una chiamata in modalità flusso a un modello Claude utilizzando l'SDK Vertex di Anthropic
Il seguente esempio di codice utilizza l'SDK Vertex di Anthropic per eseguire un flusso di dati una chiamata a un modello Claude.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Fai una chiamata unaria a un modello Claude utilizzando l'SDK Vertex di Anthropic
Il seguente esempio di codice utilizza l'SDK Vertex di Anthropic per eseguire una chiamata unary a un modello Claude.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
Utilizza un comando curl
Puoi utilizzare un comando curl per effettuare una richiesta all'endpoint Vertex AI. Il comando curl specifica quale modello Claude supportato. che vuoi utilizzare.
Le versioni del modello Claude di Anthropic devono essere utilizzate con un suffisso che inizia con un simbolo@
(ad esempio claude-3-5-sonnet-v2@20241022
oclaude-3-haiku@20240307
) per garantire un comportamento coerente.
L'argomento seguente mostra come creare un comando curl e include un comando curl di esempio.
REST
Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta i modelli Anthropic Claude.
- MODEL: il nome del modello che vuoi utilizzare.
- ROLE: il ruolo associato a
per creare un nuovo messaggio email. Puoi specificare un
user
o unassistant
. Il primo messaggio deve usare il ruolouser
. I modelli Claude funzionano con curveuser
eassistant
alternate. Se il messaggio finale utilizza il ruoloassistant
, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello. - STREAM: un valore booleano che specifica se la risposta
o meno. Trasmetti la tua risposta per ridurre la percezione della latenza dell'utilizzo finale. Imposta su
true
per trasmettere la risposta in streaming e sufalse
per restituirla tutta insieme. - CONTENT: i contenuti, ad esempio il testo, di
user
oassistant
messaggio. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe diverse.
- TOP_P (Facoltativo):
Top-P cambia il modo in cui il modello seleziona i token per l'output. Token selezionati
dal più probabile (vedi top-K) al meno probabile fino alla somma delle probabilità
equivale al valore di top-p. Ad esempio, se i token A, B e C hanno una probabilità di
0,3, 0,2 e 0,1 e il valore di top-P è
0.5
, il modello seleziona A o B come token successivo utilizzando la temperatura ed esclude C come candidato.Specifica un valore più basso per risposte meno casuali e un valore più alto per più risposte risposte casuali.
- TOP_K(Facoltativo):
Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K pari a
1
indica che il token successivo selezionato è il più probabile tra tutti i token nel vocabolario del modello (chiamato anche decodifica greedy). Un top-K pari a3
indica invece che il token successivo viene selezionato tra i tre token più probabili utilizzando la temperatura.Per ogni fase di selezione dei token, vengono campionati i token Top-K con le probabilità più elevate. Quindi i token vengono ulteriormente filtrati in base a top-p con il token finale selezionato utilizzando il campionamento della temperatura.
Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Corpo JSON della richiesta:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Comando curl di esempio
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Utilizzo dello strumento (chiamate di funzione)
I modelli Claude di Anthropic supportano strumenti e chiamate di funzione per migliorare le capacità del modello. Per saperne di più, consulta la panoramica sull'utilizzo dello strumento nella documentazione di Anthropic.
I seguenti esempi mostrano come utilizzare gli strumenti con il SDK o un comando curl. Gli esempi cercano i ristoranti nelle vicinanze di San Francisco attualmente aperti.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
REST
Prima di utilizzare i dati della richiesta, effettua le seguenti sostituzioni:
- LOCATION: una regione che supporta i modelli Anthropic Claude.
- MODEL: il nome del modello da utilizzare.
- ROLE: il ruolo associato a un messaggio. Puoi specificare un
user
o unassistant
. Il primo messaggio deve utilizzare il ruolouser
. Modelli Claude attiva con turni alternatiuser
eassistant
. Se il messaggio finale utilizza il ruoloassistant
, la risposta i contenuti procedono immediatamente a partire dai contenuti di quel messaggio. Puoi utilizzare questo per vincolare parte della risposta del modello. - STREAM: un valore booleano che specifica
indipendentemente dal fatto che la risposta sia trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre
la percezione della latenza
da parte dell'utente finale. Imposta
true
per trasmettere la risposta in streaming efalse
per restituire la risposta contemporaneamente. - CONTENT: i contenuti, ad esempio il testo, del messaggio
user
oassistant
. - MAX_OUTPUT_TOKENS:
Numero massimo di token che possono essere generati nella risposta. Un token è
di circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.
Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.
Metodo HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Corpo JSON della richiesta:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Per inviare la richiesta, scegli una delle seguenti opzioni:
curl
Salva il corpo della richiesta in un file denominato request.json
.
ed esegui questo comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Salva il corpo della richiesta in un file denominato request.json
,
quindi esegui il comando seguente:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Dovresti ricevere una risposta JSON simile alla seguente.
Disponibilità per regione di Claude di Anthropic
Claude 3.5 Sonnet v2 è disponibile nelle seguenti regioni:
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
Quote di Claude di Anthropic e lunghezza del contesto supportata
Per i modelli Claude, viene applicata una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM) e token per minuto (TPM). TPM include token di input e di output.
Il limite di quota predefinito e la lunghezza del contesto supportata per Le versioni 2 di Claude 3.5:
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-east5 (Ohio) |
90 QPM, 540.000 TPM | 200.000 token |
Il limite di quota predefinito e la lunghezza del contesto supportata per Claude 3.5 Sonnet sono:
Regione | Sistema di quote | Lunghezza del contesto supportata |
---|---|---|
us-east5 (Ohio) |
Supporta la quota dinamica condivisa | 200.000 token |
asia-southeast1 (Singapore) |
Supporta la quota condivisa dinamica | 200.000 token |
europe-west1 (Belgium) |
Supporta la quota condivisa dinamica | 200.000 token |
Il limite di quota predefinito e la lunghezza del contesto supportata per Claude 3 Opus sono:
Regione | Limite quota predefinito | Lunghezza del contesto supportata |
---|---|---|
us-east5 (Ohio) |
Supporta la quota condivisa dinamica | 200.000 token |
Il limite di quota predefinito e la lunghezza del contesto supportata per Gli Haiku di Claude 3 sono:
Regione | Limite quota predefinito | Lunghezza del contesto supportata |
---|---|---|
us-east5 (Ohio) |
Supporta la quota dinamica condivisa | 200.000 token |
asia-southeast1 (Singapore) |
Supporta la quota condivisa dinamica | 200.000 token |
europe-west1 (Belgium) |
Supporta la quota dinamica condivisa | 200.000 token |
Il limite di quota predefinito e la lunghezza del contesto supportata per Claude 3 Sonnet sono:
Regione | Limite quota predefinito | Lunghezza del contesto supportata |
---|---|---|
us-east5 (Ohio) |
Supporta la quota condivisa dinamica | 200.000 token |
Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più su quote, consulta Utilizzare le quote.