Monitoring- und Fehlerbehebungstools für Dataproc

Einführung

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst zum Ausführen von Open-Source-Verarbeitungsplattformen wie Apache Hadoop, Apache Spark, Apache Flink und Trino. Mit den in den folgenden Abschnitten beschriebenen Dateien und Tools können Sie Fehler in Ihren Dataproc-Clustern und -Jobs beheben und überwachen.

Open-Source-Weboberflächen

Viele Open-Source-Clustercluster von Dataproc, wie Apache Hadoop und Apache Spark, bieten Weboberflächen. Diese Schnittstellen können zum Überwachen von Clusterressourcen und Jobleistung verwendet werden. Sie können beispielsweise die Benutzeroberfläche von Redshift Resource Manager verwenden, um sich die Ressourcenzuweisung von Redshift-Anwendungen in einem Dataproc-Cluster anzusehen.

Persistent History Server

Auf einem Cluster ausgeführte Open-Source-Weboberflächen sind verfügbar, wenn der Cluster ausgeführt wird. Sie werden jedoch beendet, wenn Sie den Cluster löschen. Wenn Sie Cluster- und Jobdaten nach dem Löschen eines Clusters ansehen möchten, können Sie einen Persistent History Server (PHS) erstellen.

Beispiel: Es tritt ein Jobfehler oder ein Stau auf, den Sie analysieren möchten. Sie beenden oder löschen den Jobcluster und sehen sich dann die Daten zum Jobverlauf mithilfe Ihrer PHS an und analysieren sie.

Nachdem Sie eine PHS erstellt haben, aktivieren Sie sie in einem Dataproc-Cluster oder einer serverlosen serverlosen Batcharbeitslast, wenn Sie den Cluster erstellen oder die Batcharbeitslast einreichen. Ein PHS kann auf Verlaufsdaten für Jobs zugreifen, die in mehreren Clustern ausgeführt werden. So können Sie Jobs projektübergreifend überwachen, anstatt separate UIs zu überwachen, die in verschiedenen Clustern ausgeführt werden.

Dataproc-Logs

Dataproc erfasst die von Apache Hadoop, Spark, Hive, Zookeeper und anderen Open-Source-Systemen in Ihren Clustern generierten Logs und sendet sie an Logging. Diese Logs werden nach der Quelle der Logs gruppiert, sodass Sie die für Sie interessanten Logs auswählen und ansehen können: Beispielsweise werden HDFS NodeManager- und Spark Executor-Logs, die in einem Cluster generiert wurden, separat mit Labels versehen. Weitere Informationen zu Dataproc-Loginhalten und -optionen finden Sie unter Dataproc-Logs.

Cloud Logging

Logging ist ein vollständig verwaltetes Echtzeitverwaltungssystem für Logs. Sie bietet Logs, die aus Google Cloud-Diensten und -Tools aufgenommen wurden, um Logs in großem Umfang zu suchen, zu filtern und zu analysieren. Dataproc-Cluster generieren mehrere Logs, darunter Logs für Dataproc-Dienst-Agents, Cluster-Startlogs und OSS-Komponentenlogs, z. B. Protokolle für HDFS NodeManager.

Logging ist standardmäßig für Dataproc-Cluster und serverlose serverlose Dataproc-Batcharbeitslasten aktiviert. Logs werden regelmäßig nach Logging exportiert, wo sie nach dem Löschen des Clusters oder dem Abschluss der Arbeitslast beibehalten werden.

Dataproc-Messwerte

Dataproc-Cluster- und Jobmesswerte mit dem Präfix dataproc.googleapis.com/ bestehen aus Zeitachsendaten, die Informationen zur Leistung eines Clusters liefern, z. B. zur CPU-Auslastung oder zum Jobstatus. Der benutzerdefinierte Dataproc-Messwert mit dem Präfix custom.googleapis.com/ umfasst Messwerte, die von Open-Source-Systemen im Cluster ausgegeben werden, z. B. den HDFS-Messwert running applications. Mit Einblicken in Dataproc-Messwerte können Sie Ihre Cluster effizient konfigurieren. Wenn Sie messwertbasierte Benachrichtigungen einrichten, können Sie Probleme schneller erkennen und beheben.

Dataproc-Cluster- und Jobmesswerte werden standardmäßig kostenlos erfasst. Die Erhebung von benutzerdefinierten Messwerten wird den Kunden in Rechnung gestellt. Sie können die Erfassung von benutzerdefinierten Messwerten aktivieren, wenn Sie einen Cluster erstellen. Die Erhebung von serverlosen Dataproc-Messwerten ist in Spark-Batcharbeitslasten standardmäßig aktiviert.

Cloud Monitoring

Monitoring verwendet Clustermetadaten und -messwerte, einschließlich HDFS, HDFS, Job- und Betriebsmesswerte, um einen Einblick in den Zustand, die Leistung und die Verfügbarkeit von Dataproc-Clustern und -Jobs zu erhalten. Mit Monitoring können Sie Messwerte untersuchen, Diagramme hinzufügen, Dashboards erstellen und Benachrichtigungen erstellen.

Metrics Explorer

Sie können den Metrics Explorer verwenden, um Dataproc-Messwerte anzuzeigen. Dataproc-Cluster-, Job- und serverlose Batchmesswerte werden unter den Ressourcen Cloud Dataproc Cluster, Cloud Dataproc Job und Cloud Dataproc Batch aufgeführt. Benutzerdefinierte Dataproc-Messwerte sind in der Kategorie VM Instances, Custom, aufgeführt.

Diagramme

Mit Metrics Explorer können Sie Diagramme erstellen, in denen Dataproc-Messwerte visualisiert werden.

Beispiel: Sie erstellen ein Diagramm, um die Anzahl der aktiven Yarn-Anwendungen zu sehen, die in Ihren Clustern ausgeführt werden. Fügen Sie dann einen Filter hinzu, um visualisierte Messwerte nach Clustername oder Region auszuwählen.

Dashboards

Sie können Dashboards erstellen, um Dataproc-Cluster und -Jobs mithilfe von Messwerten aus mehreren Projekten und verschiedenen Google Cloud-Produkten zu überwachen. Sie können Dashboards in der Google Cloud Console auf der Seite Dashboards erstellen. Dazu klicken Sie auf ein Diagramm, erstellen ein Diagramm und speichern es dann auf der Seite Metrics Explorer.

Benachrichtigungen

Sie können Dataproc-Messwertbenachrichtigungen erstellen, um zeitnah über Cluster- oder Jobprobleme informiert zu werden.

Weitere Informationen

Weitere Informationen finden Sie unter