Utilizzare endpoint pubblici dedicati per l'inferenza online

Un endpoint pubblico dedicato è un endpoint pubblico per l'inferenza online. Offre i seguenti vantaggi:

  • Networking dedicato: quando invii una richiesta di inferenza a un endpoint pubblico dedicato, questa viene isolata dal traffico di altri utenti.
  • Latenza di rete ottimizzata
  • Supporto di payload più grandi: fino a 10 MB.
  • Timeout delle richieste più lunghi: configurabili fino a 1 ora.
  • Pronto per l'AI generativa: sono supportati lo streaming e gRPC. Il timeout dell'inferenza è configurabile fino a 1 ora.

Per questi motivi, gli endpoint pubblici dedicati sono consigliati come best practice per la pubblicazione di inferenze online di Vertex AI.

Per saperne di più, vedi Scegliere un tipo di endpoint.

Crea un endpoint pubblico dedicato ed esegui il deployment di un modello

Puoi creare un endpoint dedicato ed eseguirvi il deployment di un modello utilizzando la console Google Cloud . Per informazioni dettagliate, vedi Esegui il deployment di un modello utilizzando la console Google Cloud .

Puoi anche creare un endpoint pubblico dedicato ed eseguirne il deployment di un modello utilizzando l'API Vertex AI come segue:

  1. Crea un endpoint pubblico dedicato. La configurazione del timeout dell'inferenza e delle impostazioni di logging di richiesta-risposta è supportata al momento della creazione dell'endpoint.
  2. Esegui il deployment del modello utilizzando l'API Vertex AI.

Ottenere inferenze online da un endpoint pubblico dedicato

Gli endpoint dedicati supportano i protocolli di comunicazione HTTP e gRPC. Per le richieste gRPC, l'intestazione x-vertex-ai-endpoint-id deve essere inclusa per la corretta identificazione dell'endpoint. Sono supportate le seguenti API:

  • Previsione
  • RawPredict
  • StreamRawPredict
  • Completamento della chat (solo Model Garden)

Puoi inviare richieste di inferenza online a un endpoint pubblico dedicato utilizzando l'SDK Vertex AI per Python. Per maggiori dettagli, vedi Inviare una richiesta di inferenza online a un endpoint pubblico dedicato.

Tutorial

Limitazioni

  • Il deployment dei modelli Gemini ottimizzati non è supportato.
  • Controlli di servizio VPC non è supportato. Utilizza invece un endpoint Private Service Connect.

Passaggi successivi