Diese Seite wurde von der Cloud Translation API übersetzt.

Spezielle öffentliche Endpunkte für Online-Inferenzen verwenden

Ein dedizierter öffentlicher Endpunkt ist ein öffentlicher Endpunkt für die Onlineinferenz. Das bietet folgende Vorteile:

Dedizierte Netzwerke: Wenn Sie eine Inferenzanfrage an einen dedizierten öffentlichen Endpunkt senden, wird sie vom Traffic anderer Nutzer isoliert.
Optimierte Netzwerklatenz
Unterstützung größerer Nutzlasten: bis zu 10 MB.
Längere Zeitüberschreitungen bei Anfragen: Bis zu 1 Stunde konfigurierbar.
Bereit für generative KI: Streaming und gRPC werden unterstützt. Das Zeitlimit für die Inferenz kann auf bis zu 1 Stunde konfiguriert werden.

Aus diesen Gründen werden dedizierte öffentliche Endpunkte als Best Practice für die Bereitstellung von Vertex AI-Onlineinferenzen empfohlen.

Weitere Informationen finden Sie unter Endpunkttyp auswählen.

Dedizierten öffentlichen Endpunkt erstellen und ein Modell darauf bereitstellen

Sie können einen dedizierten Endpunkt erstellen und ein Modell darauf bereitstellen, indem Sie dieGoogle Cloud -Konsole verwenden. Weitere Informationen finden Sie unter Modell mit der Google Cloud Console bereitstellen.

Sie können auch einen dedizierten öffentlichen Endpunkt erstellen und ein Modell darauf bereitstellen, indem Sie die Vertex AI API wie folgt verwenden:

Dedizierten öffentlichen Endpunkt erstellen Die Konfiguration des Inferenz-Timeouts und der Einstellungen für das Anfrage-/Antwort-Logging wird zum Zeitpunkt der Endpunkterstellung unterstützt.
Modell mit der Vertex AI API bereitstellen

Onlineinferenzen von einem dedizierten öffentlichen Endpunkt abrufen

Dedizierte Endpunkte unterstützen sowohl HTTP- als auch gRPC-Kommunikationsprotokolle. Bei gRPC-Anfragen muss der Header „x-vertex-ai-endpoint-id“ enthalten sein, damit der Endpunkt richtig identifiziert wird. Die folgenden APIs werden unterstützt:

Vorhersagen
RawPredict
StreamRawPredict
Chat Completion (nur Model Garden)

Sie können Online-Inferenzanfragen mit dem Vertex AI SDK für Python an einen dedizierten öffentlichen Endpunkt senden. Weitere Informationen finden Sie unter Onlinevorhersageanfrage an einen dedizierten öffentlichen Endpunkt senden.

Anleitung

Beschränkungen

Die Bereitstellung von abgestimmten Gemini-Modellen wird nicht unterstützt.
VPC Service Controls wird nicht unterstützt. Verwenden Sie stattdessen einen Private Service Connect-Endpunkt.

Nächste Schritte

Informationen zu Vertex AI-Endpunkttypen für die Onlineinferenz