Das Verständnis der Leistung Ihres Modells ist ein wichtiger Teil der Verwaltung von ML-Modellen. Sie können die Trafficmuster, Fehlerraten, Latenz und Ressourcenauslastung Ihres Modells überwachen, um Probleme mit Ihren Modellen zu erkennen und den richtigen Maschinentyp zur Optimierung von Latenz und Kosten zu finden.
Sie können auch Cloud Monitoring verwenden, um Benachrichtigungen basierend auf den Messwerten festzulegen. Sie können beispielsweise Warnungen erhalten, wenn die Latenz der Modellvorhersage zu stark ansteigt. AI Platform Prediction exportiert metrics nach Cloud Monitoring.
Jeder Messwerttyp für AI Platform Prediction enthält im Namen "prediction", zum Beispiel ml.googleapis.com/prediction/online/replicas
oder ml.googleapis.com/prediction/online/accelerator/duty_cycle
.
Leistungsmesswerte überwachen
Informationen zu den Trafficmustern, Fehlern und der Latenz Ihres Modells finden Sie in der Google Cloud Console. Die folgenden Diagramme sind auf der Seite Versionsdetails im Tab Leistung verfügbar:
- Vorhersagen: Die Anzahl der Vorhersagen pro Sekunde für Online- und Batchvorhersagen. Wenn Sie mehr als eine Instanz pro Anfrage haben, wird jede Instanz in diesem Diagramm gezählt.
- Fehler: Die Fehlerrate, die Ihr Modell erzeugt. Eine hohe Fehlerrate ist normalerweise ein Zeichen dafür, dass ein Problem mit dem Modell oder den Anfragen an das Modell vorliegt. Anhand der Antwortcodes können Sie ermitteln, welche Fehler auftreten.
- Modelllatenz und Gesamtlatenz: Die Latenz Ihres Modells. Die Gesamtlatenz ist die Gesamtdauer der Anfrage im Dienst. Die Modelllatenz ist die Zeit, die für die Berechnung benötigt wird.
So rufen Sie die Leistungsdiagramme auf:
Rufen Sie in der Google Cloud Console unter „AI Platform Prediction” die Seite Modelle auf:
Klicken Sie in der Liste auf den Namen Ihres Modells, um die Seite Modelldetails aufzurufen.
Klicken Sie in der Liste auf den Namen Ihres Modells, um zur Seite Versionsdetails zu gelangen.
Klicken Sie auf den Tab Leistung, falls er noch nicht ausgewählt ist.
Scrollen Sie, um die einzelnen Diagramme anzusehen.
Ressourcenverbrauch überwachen
Diagramme zur Ressourcennutzung für Ihre Modellversionen, die Compute Engine-Maschinentypen (N1) verwenden, sind in der Google Cloud Console verfügbar. Die folgenden Diagramme sind auf der Seite Versionsdetails auf dem Tab Ressourcennutzung verfügbar:
- Replikat: Die Anzahl der Replikate für Ihre Version. Wenn Sie die manuelle Skalierung verwenden, zeigt dieses Diagramm die Anzahl der Knoten an, die Sie bei der Bereitstellung oder letzten Aktualisierung der Version ausgewählt haben. Wenn Sie Autoscaling aktiviert haben, zeigt das Diagramm, wie sich die Replikatzahl des Modells im Laufe der Zeit als Reaktion auf Änderungen des Traffics ändert.
- CPU-Auslastung, Speicherauslastung, durchschnittlicher Accelerator-Arbeitszyklus und Accelerator-Speichernutzung: die CPU-, GPU- und Speicherauslastung der Version pro Replikat.
Gesendete Netzwerkbyte und empfangene Netzwerkbyte: Die Netzwerkauslastung des Jobs, gemessen in Byte pro Sekunde.
So zeigen Sie die Diagramme zur Ressourcenauslastung an:
Rufen Sie in der Google Cloud Console unter „AI Platform Prediction” die Seite Modelle auf:
Klicken Sie in der Liste auf den Namen Ihres Modells, um die Seite Modelldetails aufzurufen.
Klicken Sie in der Liste auf den Namen Ihres Modells, um zur Seite Versionsdetails zu gelangen.
Klicken Sie auf den Tab Ressourcennutzung.
Scrollen Sie, um die einzelnen Diagramme anzusehen.
Nächste Schritte
- Probleme mit Ihrer Modellversion beheben.
- Wählen Sie einen Maschinentyp aus, um Latenz oder Kosten zu verringern.