Tools zur Überwachung und Fehlerbehebung von Dataproc

Einführung

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Open-Source-Plattformen für verteilte Verarbeitung wie Apache Hadoop, Apache Spark, Apache Flink und Trino. Mit den Dateien und Tools, die in den folgenden Abschnitten beschrieben werden, können Sie Probleme beheben und Ihre Dataproc-Cluster und ‑Jobs überwachen.

Open-Source-Weboberflächen

Viele Open-Source-Komponenten von Dataproc-Clustern wie Apache Hadoop und Apache Spark bieten Weboberflächen. Über diese Oberflächen können Sie Clusterressourcen und Jobleistung überwachen. Über die Benutzeroberfläche des YARN-Ressourcenmanagers können Sie beispielsweise die YARN-Anwendungsressourcenzuweisung in einem Dataproc-Cluster aufrufen.

Persistent History Server

Open-Source-Weboberflächen, die auf einem Cluster ausgeführt werden, sind verfügbar, solange der Cluster aktiv ist. Sie werden jedoch beendet, wenn Sie den Cluster löschen. Wenn Sie Cluster- und Jobdaten nach dem Löschen eines Clusters aufrufen möchten, können Sie einen Persistent History Server (PHS) erstellen.

Beispiel: Sie stellen einen Jobfehler oder eine Verlangsamung fest, die Sie analysieren möchten. Sie beenden oder löschen den Jobcluster und rufen dann die Jobverlaufsdaten mit dem PHS auf und analysieren sie.

Nachdem Sie einen PHS erstellt haben, aktivieren Sie ihn in einem Dataproc-Cluster oder einer Dataproc Serverless-Batcharbeitslast, wenn Sie den Cluster erstellen oder die Batcharbeitslast einreichen. Ein PHS kann auf Verlaufsdaten für Jobs zugreifen, die in mehreren Clustern ausgeführt werden. So können Sie Jobs für ein gesamtes Projekt überwachen, anstatt separate Benutzeroberflächen in verschiedenen Clustern zu überwachen.

Dataproc-Protokolle

Dataproc sammelt die von Apache Hadoop, Spark, Hive, Zookeeper und anderen Open-Source-Systemen generierten Logs, die auf Ihren Clustern ausgeführt werden, und sendet sie an Logging. Diese Logs werden nach der Logquelle gruppiert. So können Sie die für Sie interessanten Logs auswählen und ansehen. Beispielsweise werden YARN NodeManager- und Spark Executor-Logs, die in einem Cluster generiert wurden, separat gekennzeichnet. Weitere Informationen zum Inhalt und zu den Optionen von Dataproc-Protokollen finden Sie unter Dataproc-Protokolle.

Cloud Logging

Logging ist ein vollständig verwaltetes Echtzeit-Log-Verwaltungssystem. Es bietet Speicherplatz für Logs, die aus Google Cloud Diensten aufgenommen wurden, und Tools zum Skalieren, Suchen, Filtern und Analysieren von Logs. Dataproc-Cluster generieren mehrere Protokolle, darunter Protokolle des Dataproc-Dienst-Agents, Protokolle zum Starten des Clusters und Protokolle von Open-Source-Komponenten wie YARN-NodeManager-Protokolle.

Das Logging ist standardmäßig für Dataproc-Cluster und Dataproc Serverless-Batcharbeitslasten aktiviert. Protokolle werden regelmäßig in das Logging-System exportiert, wo sie auch nach dem Löschen des Clusters oder dem Abschluss der Arbeitslast erhalten bleiben.

Dataproc-Messwerte

Dataproc-Cluster- und ‑Jobmesswerte, die mit dataproc.googleapis.com/ beginnen, bestehen aus Zeitreihendaten, die Aufschluss über die Leistung eines Clusters geben, z. B. die CPU-Auslastung oder den Jobstatus. Benutzerdefinierte Dataproc-Messwerte, die mit custom.googleapis.com/ beginnen, umfassen Messwerte, die von Open-Source-Systemen ausgegeben werden, die im Cluster ausgeführt werden, z. B. der YARN-Messwert running applications. Wenn Sie sich mit den Dataproc-Messwerten vertraut machen, können Sie Ihre Cluster effizienter konfigurieren. Mithilfe von messwertbasierten Benachrichtigungen können Sie Probleme schnell erkennen und darauf reagieren.

Dataproc-Cluster- und Jobmesswerte werden standardmäßig kostenlos erfasst. Die Erhebung von benutzerdefinierten Messwerten wird den Kunden in Rechnung gestellt. Sie können die Erfassung benutzerdefinierter Messwerte aktivieren, wenn Sie einen Cluster erstellen. Die Erfassung von Spark-Messwerten für Dataproc Serverless ist für Spark-Batcharbeitslasten standardmäßig aktiviert.

Cloud Monitoring

Beim Monitoring werden Clustermetadaten und ‑messwerte wie HDFS-, YARN-, Job- und Vorgangsmesswerte verwendet, um den Zustand, die Leistung und die Verfügbarkeit von Dataproc-Clustern und ‑Jobs zu überwachen. Mit Monitoring können Sie Messwerte untersuchen, Diagramme hinzufügen, Dashboards erstellen und Benachrichtigungen erstellen.

Metrics Explorer

Im Metrics Explorer können Sie Dataproc-Messwerte aufrufen. Messwerte für Dataproc-Cluster, -Jobs und -Serverless-Batches werden unter den Ressourcen Cloud Dataproc Cluster, Cloud Dataproc Job und Cloud Dataproc Batch aufgeführt. Benutzerdefinierte Dataproc-Messwerte sind in der Kategorie VM Instances RessourceCustom aufgeführt.

Diagramme

Mit dem Metrics Explorer können Sie Diagramme erstellen, in denen Dataproc-Messwerte visualisiert werden.

Beispiel: Sie erstellen ein Diagramm, um die Anzahl der aktiven Yarn-Anwendungen in Ihren Clustern zu sehen, und fügen dann einen Filter hinzu, um visualisierte Messwerte nach Clusternamen oder Region auszuwählen.

Dashboards

Sie können Dashboards erstellen, um Dataproc-Cluster und ‑Jobs mithilfe von Messwerten aus mehreren Projekten und verschiedenen Google Cloud Produkten zu überwachen. Sie können Dashboards in der Google Cloud Console auf der Seite Dashboard-Übersicht erstellen. Klicken Sie dazu auf der Seite Metrics Explorer auf ein Diagramm, erstellen Sie es und speichern Sie es.

Benachrichtigungen

Sie können Dataproc-Messwertbenachrichtigungen erstellen, um rechtzeitig über Cluster- oder Jobprobleme informiert zu werden.

Weitere Informationen

Weitere Informationen finden Sie unter