Jobressourcen anhand von Messwerten überwachen und optimieren

In diesem Dokument wird beschrieben, wie Sie die Ressourcen für einen Batchjob überwachen und optimieren können, indem Sie sich die Messwerte in Cloud Monitoring ansehen. Weitere Informationen zu den Ressourcen, auf denen ein Job ausgeführt wird, finden Sie unter Jobressourcen.

Für jeden Job bietet Monitoring grundlegende Messwerte wie die CPU-Auslastung und den Netzwerkverkehr. Einige Messwerte wie Speicher- und Prozessauslastung können jedoch nur erfasst werden, wenn der Ops-Agent durch einen Job installiert wird. Mithilfe der Messwerte für die Ressourcen eines Jobs können Sie die Leistung und Auslastung der einzelnen Ressourcen bewerten. Anhand dieser Informationen können Sie Verbesserungen für zukünftige Iterationen der Aufgabe ermitteln. Sie können beispielsweise nicht genutzte Ressourcen entfernen, um die Kosten zu optimieren, oder belastete Ressourcen verbessern oder erhöhen, um die Leistung zu steigern.

Hinweise

  1. Wenn Sie Batch noch nicht verwendet haben, lesen Sie den Hilfeartikel Batch-Dateien erstellen und ausführen und aktivieren Sie Batch, indem Sie die Voraussetzungen für Projekte und Nutzer erfüllen.
  2. Optional: Wenn Sie zusätzliche Messwerte für einen Job erfassen möchten, erstellen und führen Sie einen Job aus, mit dem der Ops-Agent automatisch installiert wird.
  3. Aktivieren Sie die Monitoring API für Ihr Projekt, falls noch nicht geschehen:

    Enable the API

  4. Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Monitoring Metric Viewer (roles/monitoring.metricViewer) für das Projekt zu erteilen, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Messwerten zur Observabiliät benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

    Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Messwerte für Jobressourcen aufrufen

Der Abschnitt VMs beobachten und überwachen in der Compute Engine-Dokumentation enthält relevante konzeptionelle Informationen zu VM-Messwerten. Für die Anzeige von VM-Messwerten für Batch-Jobs werden jedoch andere Methoden empfohlen. Insbesondere wird in der Compute Engine-Dokumentation erläutert, wie Sie Messwerte mithilfe der vordefinierten Monitoring-Dashboards für die Compute Engine oder der Compute Engine-Seiten in der Google Cloud -Konsole aufrufen. Wichtig ist jedoch, dass mit diesen Methoden keine Informationen zu gelöschten VMs angezeigt werden. Verwenden Sie diese Methoden daher nur, wenn Sie Messwerte für Batchjobs nur während der Ausführung ansehen möchten.

Sie können sich Messwerte für laufende und abgeschlossene Batchjobs ansehen, indem Sie die in diesem Abschnitt beschriebenen Metrics Explorer-Diagramme verwenden. Diagramme sind temporär, es sei denn, Sie speichern sie in benutzerdefinierten Dashboards.

So erstellen Sie ein Diagramm für einen oder mehrere Messwerte:

  1. Optional: Wenn Sie das Diagramm speichern möchten, identifizieren oder erstellen Sie ein benutzerdefiniertes Dashboard für das Diagramm.
  2. Erstellen Sie ein Metrics Explorer-Diagramm für einen oder mehrere Messwerte.

    Ohne Filter enthalten alle VM-Messwerte in einem Diagramm Daten aus allen VMs in Ihrem Projekt. Optional können Sie das Diagramm so filtern, dass nur Messwerte aus allen oder bestimmten Batchjobs enthalten sind. Fügen Sie dazu den folgenden Filter hinzu:

    group=RESOURCE_GROUP_NAME
    

    Ersetzen Sie RESOURCE_GROUP_NAME durch den Namen einer Ressourcengruppe für Batchjobs. Weitere Informationen finden Sie in diesem Dokument unter Ressourcengruppen zum Filtern von Messwerten erstellen.

Ressourcengruppen zum Filtern von Messwerten erstellen

Sie können Ressourcengruppen als anpassbare Filter für Metrics Explorer-Diagramme verwenden. So erstellen Sie eine Ressourcengruppe für alle oder bestimmte Batchjobs in Ihrem Projekt:

  1. Wählen Sie ein Label aus, das als Mitgliedschaftskriterium verwendet werden soll. Das Label gibt an, welche Jobs in die Gruppe aufgenommen werden sollen:

    • Alle Batch-Jobs:Verwenden Sie das vordefinierte Label batch-node. Es wird automatisch auf alle Ressourcen für alle Batch-Jobs angewendet und hat einen Nullwert.
    • Bestimmte Batch-Jobs:Verwenden Sie ein Label, das nur für bestimmte Batch-Jobs auf die Ressourcen angewendet wird.

      Wenn Sie beispielsweise eine Gruppe basierend auf vollständigen oder teilweisen Jobnamen erstellen möchten, verwenden Sie den vordefinierten Labelnamen batch-job-id mit einem bestimmten Wert. Das Label batch-job-id wird automatisch auf alle Ressourcen für alle Batchjobs angewendet und mit dem Jobnamen definiert.

      Wenn Sie ein benutzerdefiniertes Label verwenden, müssen Sie es beim Erstellen der Jobs auf alle Ressourcen der Batchjobs anwenden, die in die Gruppe aufgenommen werden sollen.

  2. Achten Sie darauf, dass Ihr Projekt mindestens einen Job mit dem ausgewählten Label hat und dass dieser Job sich im Status RUNNING befindet. Andernfalls wird dieses Label nicht als Option angezeigt, wenn Sie versuchen, die Ressourcengruppe zu erstellen.

  3. Erstellen Sie eine Ressourcengruppe. Beachten Sie beim Festlegen der Mitgliedschaftskriterien Folgendes:

    1. Legen Sie für Typ Tag fest.
    2. Legen Sie im Feld Tag den Namen des ausgewählten Labels fest. Legen Sie dann die folgenden Felder basierend auf den Labelwerten fest, die die Gruppe enthalten soll.

      Wenn diese Gruppe beispielsweise alle Batchjobs enthalten soll, legen Sie batch-node als Tag und Existiert als Operator fest. Wenn diese Gruppe stattdessen Batchjobs mit Namen enthalten soll, die mit test beginnen, legen Sie batch-job-id als Tag, Startet mit als Operator und test als Wert fest.

Nächste Schritte