Utilizzare i modelli Claude di Anthropic

I modelli Claude di Anthropic su Vertex AI offrono modelli completamente gestiti e senza server come API. Per utilizzare un modello Claude su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli Claude di Anthropic utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.

Puoi trasmettere in streaming le risposte di Claude per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per eseguire lo streaming incrementale della risposta.

Puoi pagare i modelli Claude man mano che li utilizzi (pagamento a consumo) oppure pagare una commissione fissa quando utilizzi il throughput riservato. Per i prezzi di pagamento a consumo, consulta Modelli Claude di Anthropic nella pagina dei prezzi di Vertex AI.

Modelli Claude disponibili

I seguenti modelli sono disponibili da Anthropic per l'utilizzo in Vertex AI. Per accedere a un modello Claude, vai alla relativa scheda di Model Garden.

Claude 3.5 Sonnet v2

Claude 3.5 Sonnet v2 è un modello all'avanguardia per attività di ingegneria del software nel mondo reale e funzionalità di agente. Claude 3.5 Sonnet v2 offre questi miglioramenti allo stesso prezzo e alla stessa velocità di Claude 3.5 Sonnet.

Il modello Claude 3.5 Sonnet di cui è stato eseguito l'upgrade è in grado di interagire con strumenti che possono manipolare un ambiente desktop del computer. Per ulteriori informazioni, consulta la documentazione di Anthropoic.

Claude 3.5 Sonnet è ottimizzato per i seguenti casi d'uso:

  • Attività e utilizzo di strumenti basati su agenti: Claude 3.5 Sonnet offre un seguito delle istruzioni, una selezione degli strumenti, una correzione degli errori e un ragionamento avanzato superiori per i flussi di lavoro basati su agenti che richiedono l'utilizzo di strumenti.
  • Programmazione: per le attività di sviluppo software che vanno dalle migrazioni del codice, alle correzioni e alle traduzioni, Claude 3.5 Sonnet offre ottime prestazioni sia nella pianificazione che nella risoluzione di attività di programmazione complesse.
  • Domande e risposte sui documenti: Claude 3.5 Sonnet combina una solida comprensione del contesto, un ragionamento avanzato e la sintesi per fornire risposte accurate e simili a quelle umane.
  • Estrazione di dati visivi: con le migliori competenze di visione di Claude 3.5 Sonnet, Claude 3.5 Sonnet può estrarre dati non elaborati da elementi visivi come grafici o tabelle nell'ambito dei flussi di lavoro di AI.
  • Generazione e analisi dei contenuti: Claude 3.5 Sonnet può comprendere le sfumature e il tono dei contenuti, generare contenuti più coinvolgenti e analizzarli in modo più approfondito.

Vai alla scheda del modello Claude 3.5 Sonnet v2

Claude 3.5 Haiku

Claude 3.5 Haiku, la nuova generazione del modello più rapido e costo-efficiente di Anthropic, è ottimale per i casi d'uso in cui la velocità e la convenienza sono importanti. Migliora il suo predecessore in ogni set di competenze. Claude 3.5 Haiku è ottimizzato per i seguenti casi d'uso:

  • Completamenti di codice: grazie ai tempi di risposta rapidi e alla comprensione dei pattern di programmazione, Claude 3.5 Haiku eccelle nel fornire suggerimenti e completamenti di codice rapidi e accurati nei flussi di lavoro di sviluppo in tempo reale.
  • Chatbot interattivi: le capacità di ragionamento e conversazione naturale migliorate di Claude 3.5 Haiku lo rendono ideale per creare chatbot coinvolgenti e reattivi in grado di gestire in modo efficiente elevati volumi di interazioni utente.
  • Estrazione e etichettatura dei dati: sfruttando le sue capacità di analisi migliorate, Claude 3.5 Haiku elabora e classifica in modo efficiente i dati, rendendolo utile per l'estrazione rapida dei dati e le attività di etichettatura automatica.
  • Moderazione dei contenuti in tempo reale: grazie a ottime capacità di ragionamento e comprensione dei contenuti, Claude 3.5 Haiku offre una moderazione dei contenuti rapida e affidabile per le piattaforme che richiedono tempi di risposta immediati su larga scala.

Vai alla scheda del modello Claude 3.5 Haiku

Claude 3 Opus

Claude 3 Opus di Anthropic è un potente modello di AI che offre prestazioni di alto livello per attività molto complesse. È in grado di esplorare prompt aperti e scenari non visivi con notevole fluidità e comprensione di tipo umano. Claude 3 Opus è ottimizzato per i seguenti casi d'uso:

  • Automazione delle attività, ad esempio programmazione e pianificazione interattive o esecuzione di azioni complesse su API e database.

  • Attività di ricerca e sviluppo, come revisione della ricerca, brainstorming e generazione di ipotesi e test di prodotto.

  • Attività di strategia, come l'analisi avanzata di grafici e tabelle, dati finanziari e finanziari, tendenze del mercato e previsioni.

  • Attività di visione, come l'elaborazione di immagini per restituire un output di testo. Inoltre, analisi di grafici, diagrammi tecnici, report e altri contenuti visivi.

Vai alla scheda del modello Claude 3 Opus

Claude 3 Haiku

Claude 3 Haiku di Anthropic è il modello di visione e testo più rapido di Anthropic per risposte quasi immediate a query di base, pensato per esperienze di AI senza interruzioni che simulano le interazioni umane.

  • Interazioni con i clienti e traduzioni in tempo reale.

  • Moderazione dei contenuti per rilevare comportamenti sospetti o richieste dei clienti.

  • Attività di risparmio sui costi, come la gestione dell'inventario e l'estrazione di conoscenza dai dati non strutturati.

  • Attività di visione, come l'elaborazione di immagini per restituire un'uscita di testo, l'analisi di grafici, tabelle, diagrammi tecnici, report e altri contenuti visivi.

Vai alla scheda del modello Claude 3 Haiku

Claude 3.5 Sonnet

Claude 3.5 Sonnet di Anthropic supera Claude 3 Opus su un'ampia gamma di valutazioni di Anthropic, con la velocità e il costo del modello di livello medio Claude 3 Sonnet di Anthropic. Claude 3.5 Sonnet è ottimizzato per i seguenti casi d'uso:

  • Codifica, ad esempio scrittura, modifica ed esecuzione di codice con sofisticate funzionalità di ragionamento e risoluzione dei problemi.

  • Gestisci query complesse dell'assistenza clienti comprendendo il contesto dell'utente e orchestrando flussi di lavoro in più fasi.

  • Data science e analisi tramite la navigazione dei dati non strutturati e l'utilizzo di più strumenti per generare approfondimenti.

  • Elaborazione visiva, ad esempio l'interpretazione di grafici e diagrammi che richiedono una comprensione visiva.

  • Scrivere contenuti con un tono più naturale e umano.

Vai alla scheda del modello Claude 3.5 Sonnet

Utilizzare i modelli Claude

Puoi utilizzare l'SDK di Anthropic o i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modello:

  • Per Claude 3.5 Sonnet v2, utilizza claude-3-5-sonnet-v2@20241022.
  • Per Claude 3.5 Haiku, utilizza claude-3-5-haiku@20241022.
  • Per Claude 3 Opus, utilizza claude-3-opus@20240229.
  • Per Claude 3.5 Sonnet, utilizza claude-3-5-sonnet@20240620.
  • Per Claude 3 Haiku, utilizza claude-3-haiku@20240307.

Le versioni del modello Anthropic Claude devono essere utilizzate con un suffisso che inizia con un simbolo @ (ad esempio claude-3-5-sonnet-v2@20241022 oclaude-3-5-haiku@20241022) per garantire un comportamento coerente.

Prima di iniziare

Per utilizzare i modelli Claude di Anthropic con Vertex AI, devi eseguire i seguenti passaggi. L'API Vertex AI (aiplatform.googleapis.com) deve essere attivata per utilizzare Vertex AI. Se hai già un progetto con l'API Vertex AI abilitata, puoi utilizzarlo anziché crearne uno nuovo.

Assicurati di disporre delle autorizzazioni necessarie per attivare e utilizzare i modelli di partner. Per ulteriori informazioni, consulta Concedere le autorizzazioni richieste.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Vai a una delle seguenti schede del modello di Model Garden e fai clic su Abilita:

Utilizzare l'SDK Anthropic

Puoi inviare richieste API ai modelli Claude di Anthropic utilizzando l'SDK Anthropic Claude. Per saperne di più, consulta quanto segue:

Effettua una chiamata in streaming a un modello Claude utilizzando l'SDK Anthropic Vertex

Il seguente esempio di codice utilizza l'SDK Anthropic Vertex per eseguire una chiamata streaming a un modello Claude.

Python

Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
result = []

with client.messages.stream(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
        result.append(text)

# Example response:
# Here's a simple recipe for delicious banana bread:
# Ingredients:
# - 2-3 ripe bananas, mashed
# - 1/3 cup melted butter
# ...
# ...
# 8. Bake for 50-60 minutes, or until a toothpick inserted into the center comes out clean.
# 9. Let cool in the pan for a few minutes, then remove and cool completely on a wire rack.

Fai una chiamata unaria a un modello Claude utilizzando l'SDK Anthropic Vertex

Il seguente esempio di codice utilizza l'SDK Anthropic Vertex per eseguire una chiamata unary a un modello Claude.

Python

Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_0162rhgehxa9rvJM5BSVLZ9j",
#   "content": [
#     {
#       "text": "Here's a simple recipe for delicious banana bread:\n\nIngredients:\n- 2-3 ripe bananas...
#   ...

Utilizza un comando curl

Puoi utilizzare un comando curl per effettuare una richiesta all'endpoint Vertex AI. Il comando curl specifica quale modello Claude supportato vuoi utilizzare.

Le versioni del modello Anthropic Claude devono essere utilizzate con un suffisso che inizia con un simbolo @ (ad es. claude-3-5-sonnet-v2@20241022 oclaude-3-5-haiku@20241022) per garantire un comportamento coerente.

L'argomento seguente mostra come creare un comando curl e include un comando curl di esempio.

REST

Per testare un prompt di testo utilizzando l'API Vertex AI, invia una richiesta POST all'endpoint del modello del publisher.

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • LOCATION: una regione che supporta i modelli Anthropic Claude.
  • MODEL: il nome del modello che vuoi utilizzare.
  • ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli Claude funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello.
  • STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza da parte dell'utente finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
  • CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

  • TOP_P (Facoltativo): Top-P cambia il modo in cui il modello seleziona i token per l'output. I token vengono selezionati dal più probabile (vedi Top-K) al meno probabile finché la somma delle loro probabilità non corrisponde al valore di Top-P. Ad esempio, se i token A, B e C hanno una probabilità di 0,3, 0,2 e 0,1 e il valore di top-P è 0.5, il modello seleziona A o B come token successivo utilizzando la temperatura ed esclude C come candidato.

    Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali.

  • TOP_K(Facoltativo): Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K pari a 1 indica che il token successivo selezionato è il più probabile tra tutti i token nel vocabolario del modello (chiamato anche decodifica greedy). Un top-K pari a 3 indica invece che il token successivo viene selezionato tra i tre token più probabili utilizzando la temperatura.

    Per ogni fase di selezione dei token, vengono campionati i token Top-K con le probabilità più elevate. Quindi i token vengono ulteriormente filtrati in base a Top-P e il token finale viene selezionato utilizzando il campionamento con temperatura.

    Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict

Corpo JSON della richiesta:

{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": STREAM
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Comando curl di esempio

MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [{
    "role": "user",
    "content": "Hello!"
  }],
  "max_tokens": 50,
  "stream": true}'

Utilizzo dello strumento (chiamate di funzione)

I modelli Claude di Anthropic supportano strumenti e chiamate di funzione per migliorare le funzionalità di un modello. Per saperne di più, consulta la panoramica sull'utilizzo dello strumento nella documentazione di Anthropic.

Gli esempi riportati di seguito mostrano come utilizzare gli strumenti mediante un SDK o un comando curl. I sample cercano i ristoranti aperti nelle vicinanze di San Francisco.

Python

Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'
from anthropic import AnthropicVertex

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    tools=[
        {
            "name": "text_search_places_api",
            "description": "returns information about a set of places based on a string",
            "input_schema": {
                "type": "object",
                "properties": {
                    "textQuery": {
                        "type": "string",
                        "description": "The text string on which to search",
                    },
                    "priceLevels": {
                        "type": "array",
                        "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
                    },
                    "openNow": {
                        "type": "boolean",
                        "description": "whether those places are open for business.",
                    },
                },
                "required": ["textQuery"],
            },
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "What are some affordable and good Italian restaurants open now in San Francisco??",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_018pk1ykbbxAYhyWUdP1bJoQ",
#   "content": [
#     {
#       "text": "To answer your question about affordable and good Italian restaurants
#       that are currently open in San Francisco....
# ...

REST

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

  • LOCATION: una regione che supporta i modelli Anthropic Claude.
  • MODEL: il nome del modello da utilizzare.
  • ROLE: il ruolo associato a un messaggio. Puoi specificare un user o un assistant. Il primo messaggio deve utilizzare il ruolo user. I modelli Claude funzionano con curve user e assistant alternate. Se il messaggio finale utilizza il ruolo assistant, i contenuti della risposta continuano immediatamente da quelli del messaggio. Puoi usarli per limitare parte della risposta del modello.
  • STREAM: un valore booleano che specifica se la risposta viene trasmessa in streaming o meno. Trasmetti la risposta in streaming per ridurre la percezione della latenza di utilizzo finale. Imposta su true per trasmettere la risposta in streaming e su false per restituirla tutta insieme.
  • CONTENT: i contenuti, ad esempio il testo, del messaggio user o assistant.
  • MAX_OUTPUT_TOKENS: Numero massimo di token che possono essere generati nella risposta. Un token equivale a circa 3,5 caratteri. 100 token corrispondono a circa 60-80 parole.

    Specifica un valore più basso per risposte più brevi e un valore più alto per risposte potenzialmente più lunghe.

Metodo HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict

Corpo JSON della richiesta:


{
  "anthropic_version": "vertex-2023-10-16",
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "tools": [
    {
      "name": "text_search_places_api",
      "description": "Returns information about a set of places based on a string",
      "input_schema": {
        "type": "object",
        "properties": {
          "textQuery": {
            "type": "string",
            "description": "The text string on which to search"
          },
          "priceLevels": {
            "type": "array",
            "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
          },
          "openNow": {
            "type": "boolean",
            "description": "Describes whether a place is open for business at
            the time of the query."
          },
        },
        "required": ["textQuery"]
      }
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??"
    }
  ]
}

Per inviare la richiesta, scegli una delle seguenti opzioni:

curl

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"

PowerShell

Salva il corpo della richiesta in un file denominato request.json, quindi esegui il comando seguente:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente.

Utilizzare Vertex AI Studio

Per alcuni modelli Claude di Anthropic, puoi utilizzare Vertex AI Studio per prototipare e testare rapidamente i modelli di IA generativa nella console Google Cloud. Ad esempio, puoi utilizzare Vertex AI Studio per confrontare le risposte del modello Claude con quelle di altri modelli supportati come Google Gemini.

Per ulteriori informazioni, consulta la guida rapida: invia prompt di testo a Gemini utilizzando Vertex AI Studio.

Disponibilità per regione di Anthropic Claude

Claude 3.5 Sonnet v2 è disponibile nelle seguenti regioni:
  • us-east5 (Ohio)
  • europe-west1 (Belgium)
Claude 3.5 Haiku è disponibile nelle seguenti regioni:
  • us-east5 (Ohio)
Claude 3 Opus è disponibile nella seguente regione:
  • us-east5 (Ohio)
Claude 3.5 Sonnet è disponibile nelle seguenti regioni:
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)
Claude 3 Haiku è disponibile nelle seguenti regioni:
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)

Quote di Anthropic Claude e lunghezza del contesto supportata

Per i modelli Claude, viene applicata una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM) e token al minuto (TPM). Il TPM include token di input e di output.

Per mantenere le prestazioni complessive del servizio e l'utilizzo accettabile, le quote massime possono variare in base all'account e, in alcuni casi, l'accesso potrebbe essere limitato. Visualizza le quote del progetto nella pagina Quote e limiti dei sistemi della console Google Cloud. Inoltre, devi disporre delle seguenti quote:

  • Online prediction requests per base model per minute per region per base_model
  • Online prediction tokens per minute per base model per minute per region per base_model

Claude 3.5 Sonnet v2

La tabella seguente mostra le quote massime e la lunghezza del contesto supportata per Claude 3.5 Sonnet v2.

Regione Quote Lunghezza del contesto supportata
us-east5 (Ohio) Fino a 90 QPM, 540.000 TPM 200.000 token
europe-west1 (Belgium) Fino a 55 QPM, 330.000 TPM 200.000 token

Claude 3.5 Haiku

La tabella seguente mostra le quote massime e la lunghezza del contesto supportata per Claude 3.5 Haiku.

Regione Quote Lunghezza del contesto supportata
us-east5 (Ohio) Fino a 80 QPM, 350.000 TPM 200.000 token

Claude 3 Opus

La tabella seguente mostra le quote massime e la lunghezza del contesto supportata per Claude 3 Opus.

Regione Quote Lunghezza del contesto supportata
us-east5 (Ohio) Fino a 20 QPM, 105.000 TPM 200.000 token

Claude 3 Haiku

La tabella seguente mostra le quote massime e la lunghezza del contesto supportata per Claude 3 Haiku.

Regione Quote Lunghezza del contesto supportata
us-east5 (Ohio) Fino a 245 QPM, 600.000 TPM 200.000 token
asia-southeast1 (Singapore) Fino a 70 QPM, 174.000 TPM 200.000 token
europe-west1 (Belgium) Fino a 75 QPM, 181.000 TPM 200.000 token

Claude 3.5 Sonnet

La tabella seguente mostra le quote massime e la lunghezza del contesto supportata per Claude 3.5 Sonnet.

Regione Quote Lunghezza del contesto supportata
us-east5 (Ohio) Fino a 120 QPM, 555.000 TPM 200.000 token
asia-southeast1 (Singapore) Fino a 35 QPM, 150.000 TPM 200.000 token
europe-west1 (Belgium) Fino a 130 QPM, 600.000 TPM 200.000 token

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.