Vertex AI-Logs und ‑Messwerte ansehen

Mithilfe von Logs und Messwerten können Sie Ihre Dienste überwachen und Probleme mit der Dienstleistung beheben. Sie können Logs und Messwerte von Vertex AI-Diensten mit den Überwachungs- und Logging-Ressourcen von Google Distributed Cloud (GDC) Air-Gapped aufrufen. Sie können auch Abfragen erstellen, um bestimmte Vertex AI-Messwerte zu überwachen.

Auf dieser Seite wird beschrieben, wie Sie Logs und Messwerte von Vertex AI-Diensten in die Monitoring-Instanz von Distributed Cloud.

Diese Seite enthält auch Beispielabfragen, mit denen Sie die Vertex AI-Plattform und -Dienste wie die optische Zeichenerkennung (Optical Character Recognition, OCR), Speech-to-Text und Vertex AI Translation überwachen können. Weitere Informationen zu Logging- und Monitoring-Lösungen in Distributed Cloud finden Sie unter Messwerte und Logs beobachten.

Hinweise

Bitten Sie Ihren Projekt-IAM-Administrator, Ihnen die Rolle „Projekt-Grafana-Betrachter“ (project-grafana-viewer) in Ihrem Projekt-Namespace zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Logs und Messwerten aus Vertex AI benötigen.

Weitere Informationen zu dieser Rolle finden Sie unter IAM-Berechtigungen vorbereiten.

Logs und Messwerte in Dashboards visualisieren

Sie können sich Messwerte und Logs für Vertex AI in Dashboards ansehen. Sie können beispielsweise eine Abfrage erstellen, um zu sehen, wie sich Vertex AI auf die CPU-Auslastung auswirkt.

So rufen Sie Vertex AI-Logs und ‑Messwerte in Dashboards auf:

  1. Melden Sie sich in der GDC Console an und wählen Sie Ihr Projekt aus.

  2. Klicken Sie im Navigationsmenü auf Vertex AI > Vortrainierte APIs.

  3. Prüfen Sie auf der Seite Vortrainierte APIs, ob die Vertex AI API für den Dienst, den Sie überwachen möchten, aktiviert ist.

  4. Klicken Sie auf Dienste in Grafana überwachen, um die Grafana-Startseite zu öffnen.

  5. Klicken Sie im Navigationsmenü der Startseite auf Erkunden Erkunden, um die Seite Erkunden zu öffnen.

  6. Wählen Sie im Menü auf der Seite Entdecken eine der folgenden Datenquellen aus:

    • Betriebslogs: Betriebslogs abrufen.
    • Audit-Logs: Audit-Logs abrufen.
    • Prometheus: Messwerte abrufen.
  7. Wenn Sie Messwerte anzeigen möchten, geben Sie eine Abfrage mit PromQL-Ausdrücken (Prometheus Query Language) ein.

  8. Wenn Sie Logs anzeigen möchten, geben Sie eine Abfrage mit LogQL-Ausdrücken (Log Query Language) ein.

Auf der Seite werden die Messwerte oder Logs angezeigt, die Ihrer Abfrage entsprechen.

Die Prometheus-Option ist auf der Seite „Explore“ ausgewählt, um Messwerte abzurufen.

Abbildung 1. Menüoption in Grafana zum Abfragen von Messwerten.

In Abbildung 1 wird mit der Option Prometheus die Benutzeroberfläche angezeigt, mit der Sie Abfragen zum Abrufen von Messwerten erstellen können.

Beispielabfragen

Die folgende Tabelle enthält Beispielabfragen zur Überwachung der Vertex AI-Plattform in Ihrer Umgebung:

Vertex AI-Plattform
Datenquelle Beschreibung Komponente Abfrage
Messwerte Prozentsatz der CPU-Nutzung des Containers Operator der Stufe 1 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100
Operator der Stufe 2 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100
Arbeitsspeichernutzung des Containers in MB Operator der Stufe 1 container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6
Operator der Stufe 2 container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6
Betriebsprotokolle L1-Operator-Logs Operator der Stufe 1 {service_name="vai-l1operator"}
L2-Operator-Logs Operator der Stufe 2 {service_name="vai-l2operator"}
Audit-Logs Audit-Logs für das Plattform-Frontend Frontend für das Vertex AI-Web-Plug-in {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend)
Audit-Logs für das Plattform-Backend Vertex AI-Web-Plug-in-Backend {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend)

Die folgende Tabelle enthält Beispielabfragen zum Überwachen von Vertex AI API-Diensten wie OCR, Speech-to-Text und Vertex AI Translation in Ihrer Umgebung:

Vertex AI-Dienste
Datenquelle Beschreibung Dienst Abfrage
Messwerte Die Auswirkungen einer vortrainierten API auf die
CPU-Auslastung.
OCR rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr
Speech-to-Text rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100
Vertex AI Translation rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction
Verwenden Sie das Filterlabel destination_service, um die Fehlerrate der letzten 60 Minuten abzurufen. OCR rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Speech-to-Text rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Vertex AI Translation rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Betriebsprotokolle Betriebsprotokolle von Vertex AI-Diensten
OCR {namespace="g-vai-ocr-sie"}
Speech-to-Text {namespace="g-vai-speech-sie"}
Vertex AI Translation {namespace="g-vai-translation-sie"}
Audit-Logs Audit-Logs von Vertex AI-Diensten OCR {service_name="istio"} |= "vision-frontend-server"
Speech-to-Text {service_name="istio"} |= "speech-frontend-server"
Vertex AI Translation {service_name="istio"} |= "translation-frontend-server"