Dataproc-Tools für Monitoring und Fehlerbehebung

Einführung

Dataproc ist ein vollständig verwalteter und hoch skalierbarer Dienst zum Ausführen verteilter Open-Source-Verarbeitungsplattformen wie Apache Hadoop, Apache Spark, Apache Flink und Trino. Mit den in den folgenden Abschnitten beschriebenen Dateien und Tools können Sie Probleme mit Dataproc-Clustern und -Jobs beheben und diese überwachen.

Open-Source-Weboberflächen

Viele Open-Source-Komponenten von Dataproc-Clustern wie Apache Hadoop und Apache Spark bieten Weboberflächen. Über diese Oberflächen können Clusterressourcen und Jobleistung überwacht werden. Sie können beispielsweise die YARN Resource Manager-UI verwenden, um die Ressourcenzuweisung der YARN-Anwendung in einem Dataproc-Cluster anzusehen.

Persistent History Server

Open-Source-Weboberflächen, die in einem Cluster ausgeführt werden, sind verfügbar, während der Cluster ausgeführt wird. Sie werden jedoch beendet, wenn Sie den Cluster löschen. Zum Anzeigen von Cluster- und Jobdaten nach dem Löschen eines Clusters können Sie einen Persistent History Server (PHS) erstellen.

Beispiel: Sie stoßen auf einen Jobfehler oder eine Verlangsamung, die Sie analysieren möchten. Sie beenden oder löschen den Jobcluster und sehen und analysieren dann Jobverlaufsdaten mithilfe Ihrer PHS.

Nachdem Sie ein PHS erstellt haben, aktivieren Sie es in einem Dataproc-Cluster oder einer serverlosen Dataproc-Batcharbeitslast, wenn Sie den Cluster erstellen oder die Batcharbeitslast senden. Ein PHS kann auf Verlaufsdaten für Jobs zugreifen, die in mehreren Clustern ausgeführt werden. So können Sie Jobs projektübergreifend überwachen, anstatt separate UIs zu überwachen, die auf verschiedenen Clustern ausgeführt werden.

Dataproc-Logs

Dataproc erfasst die von Apache Hadoop, Spark, Hive, Zookeeper und anderen auf Ihren Clustern ausgeführten Open-Source-Systemen generierte Logs und sendet sie an Logging. Diese Logs werden nach der Quelle der Logs gruppiert, sodass Sie Logs auswählen und anzeigen können, die für Sie von Interesse sind. Beispielsweise werden die für einen Cluster generierten YARN NodeManager- und Spark Executor-Logs separat mit Labels versehen. Weitere Informationen zu den Inhalten und Optionen von Dataproc-Logs finden Sie unter Dataproc-Logs.

Cloud Logging

Logging ist ein vollständig verwaltetes Logverwaltungssystem in Echtzeit. Sie bietet Speicher für Logs, die aus Google Cloud-Diensten aufgenommen wurden, sowie Tools zum Suchen, Filtern und Analysieren von Logs in großem Umfang. Dataproc-Cluster generieren mehrere Logs, einschließlich Logs des Dataproc-Dienst-Agents, Logs für den Clusterstart und Logs von OSS-Komponenten wie YARN NodeManager-Logs.

Logging ist für Dataproc-Cluster und Dataproc Serverless-Batcharbeitslasten standardmäßig aktiviert. Logs werden regelmäßig nach Logging exportiert. Dort bleiben sie nach dem Löschen des Clusters oder dem Abschluss der Arbeitslast bestehen.

Dataproc-Messwerte

Dataproc-Cluster- und Jobmesswerte mit dem Präfix dataproc.googleapis.com/ bestehen aus Zeitachsendaten, die Einblicke in die Leistung eines Clusters liefern, z. B. die CPU-Auslastung oder den Jobstatus. Benutzerdefinierte Dataproc-Messwerte mit dem Präfix custom.googleapis.com/ enthalten Messwerte, die von auf dem Cluster ausgeführten Open-Source-Systemen ausgegeben werden, z. B. der YARN-Messwert running applications. Informationen zu Dataproc-Messwerten können Ihnen bei der effizienten Konfiguration Ihrer Cluster helfen. Mit messwertbasierten Benachrichtigungen können Sie Probleme schneller erkennen und darauf reagieren.

Messwerte zu Dataproc-Clustern und -Jobs werden standardmäßig kostenlos erfasst. Das Erfassen benutzerdefinierter Messwerte wird Kunden in Rechnung gestellt. Sie können die Erfassung benutzerdefinierter Messwerte aktivieren, wenn Sie einen Cluster erstellen. Die Sammlung von Dataproc Serverless-Spark-Messwerten ist bei Spark-Batcharbeitslasten standardmäßig aktiviert.

Cloud Monitoring

Monitoring verwendet Clustermetadaten und -messwerte, einschließlich HDFS-, YARN-, Job- und Vorgangsmesswerte, um Einblick in den Zustand, die Leistung und die Verfügbarkeit von Dataproc-Clustern und -Jobs zu bieten. Sie können Monitoring verwenden, um Messwerte zu untersuchen, Diagramme hinzuzufügen, Dashboards zu erstellen und Benachrichtigungen zu erstellen.

Metrics Explorer

Mit dem Metrics Explorer können Sie Dataproc-Messwerte anzeigen. Dataproc-Cluster, -Jobs und serverlose Batchmesswerte sind unter den Ressourcen Cloud Dataproc Cluster, Cloud Dataproc Job und Cloud Dataproc Batch aufgeführt. Benutzerdefinierte Dataproc-Messwerte werden unter der Ressource VM Instances unter der Kategorie Custom aufgeführt.

Diagramme

Mit dem Metrics Explorer können Sie Diagramme erstellen, in denen Dataproc-Messwerte visualisiert werden.

Beispiel: Sie erstellen ein Diagramm, um die Anzahl der aktiven Yarn-Anwendungen zu sehen, die in Ihren Clustern ausgeführt werden, und fügen dann einen Filter hinzu, um visualisierte Messwerte nach Clustername oder Region auszuwählen.

Dashboards

Sie können Dashboards erstellen, um Dataproc-Cluster und -Jobs mithilfe von Messwerten aus mehreren Projekten und verschiedenen Google Cloud-Produkten zu überwachen. Sie können Dashboards in der Google Cloud Console auf der Seite Dashboard-Übersicht erstellen. Klicken Sie dazu auf der Seite Metrics Explorer auf ein Diagramm, erstellen und speichern Sie es dann.

Benachrichtigungen

Sie können Dataproc-Messwertbenachrichtigungen erstellen, um rechtzeitig über Cluster- oder Jobprobleme informiert zu werden.

Weitere Informationen

Weitere Informationen finden Sie unter