Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Open-Source-Plattformen für die verteilte Verarbeitung wie Apache Hadoop, Apache Spark, Apache Flink und Trino. Mit den in den folgenden Abschnitten beschriebenen Tools und Dateien können Sie Ihre Dataproc-Cluster und -Jobs untersuchen, Fehler beheben und überwachen.
KI-basierte Untersuchungen mit Gemini Cloud Assist (Vorabversion)
Übersicht
Die Vorschaufunktion „Gemini Cloud Assist-Prüfungen“ nutzt die erweiterten Gemini-Funktionen, um Sie beim Erstellen und Ausführen von Dataproc-Clustern und ‑Jobs zu unterstützen. Mit dieser Funktion werden fehlgeschlagene Cluster sowie fehlgeschlagene und langsam ausgeführte Jobs analysiert, um die Ursachen zu ermitteln und Korrekturen zu empfehlen. Es werden dauerhafte Analysen erstellt, die Sie sich ansehen, speichern und mit dem Google Cloud -Support teilen können, um die Zusammenarbeit zu erleichtern und die Problemlösung zu beschleunigen.
Features
Mit dieser Funktion können Sie Prüfungen über die Google Cloud -Konsole erstellen:
- Fügen Sie einem Problem eine Kontextbeschreibung in natürlicher Sprache hinzu, bevor Sie eine Untersuchung erstellen.
- Analysieren Sie fehlgeschlagene Cluster sowie langsame und fehlgeschlagene Jobs.
- Sie erhalten Informationen zu den Ursachen von Problemen und empfohlene Korrekturen.
- Erstellen Sie Google Cloud Supportanfragen mit dem vollständigen Kontext der Untersuchung.
Hinweise
Aktivieren Sie die Gemini Cloud Assist API in Ihrem Google Cloud -Projekt, um die Funktion „Prüfung“ zu verwenden.
Prüfung erstellen
So erstellen Sie eine Untersuchung:
Rufen Sie in der Google Cloud Console die Seite Cloud Assist Investigations auf.
Klicken Sie auf
Erstellen.Problem beschreiben: Geben Sie eine Beschreibung des Cluster- oder Jobproblems ein.
Zeitraum auswählen: Geben Sie einen Zeitraum an, in dem das Problem aufgetreten ist (Standard sind 30 Minuten).
Ressourcen auswählen:
- Klicken Sie auf
- Geben Sie im Feld Schnellfilter „dataproc“ ein und wählen Sie dann einen oder mehrere der folgenden Filter aus:
dataproc.Batch
,dataproc.Job
oderdataproc.Cluster
. - Wählen Sie den aufgeführten Batch, Job oder Cluster aus, den Sie untersuchen möchten.
Ressource hinzufügen.
- Geben Sie im Feld Schnellfilter „dataproc“ ein und wählen Sie dann einen oder mehrere der folgenden Filter aus:
- Klicken Sie auf
Klicken Sie auf Erstellen.
Untersuchungsergebnisse interpretieren
Wenn eine Untersuchung abgeschlossen ist, wird die Seite Details zur Untersuchung geöffnet. Diese Seite enthält die vollständige Gemini-Analyse, die in die folgenden Abschnitte unterteilt ist:
- Problem: Ein minimierter Bereich mit automatisch ausgefüllten Details des Jobs, der untersucht wird.
- Relevante Beobachtungen: Ein minimierter Abschnitt mit wichtigen Datenpunkten und Anomalien, die Gemini bei der Analyse von Logs und Messwerten gefunden hat.
- Hypothesen: Dies ist der primäre Bereich, der standardmäßig maximiert ist.
Es wird eine Liste mit möglichen Ursachen für das beobachtete Problem angezeigt. Jede Hypothese enthält Folgendes:
- Übersicht: Eine Beschreibung der möglichen Ursache, z. B. „Hohe Shuffle-Schreibzeit und potenzielle Aufgabenabweichung“.
- Empfohlene Korrekturen: Eine Liste mit umsetzbaren Schritten zur Behebung des potenziellen Problems.
Maßnahmen ergreifen
Nachdem Sie die Hypothesen und Empfehlungen geprüft haben:
Wenden Sie eine oder mehrere der vorgeschlagenen Korrekturen auf die Jobkonfiguration oder den Code an und führen Sie den Job dann noch einmal aus.
Sie können Feedback zur Nützlichkeit der Untersuchung geben, indem Sie oben im Bereich auf das Symbol „Mag ich“ oder „Mag ich nicht“ klicken.
Prüfungen prüfen und eskalieren
Die Ergebnisse einer zuvor ausgeführten Untersuchung können Sie auf der Seite Cloud Assist-Untersuchungen aufrufen. Klicken Sie dazu auf den Namen der Untersuchung, um die Seite Untersuchungsdetails zu öffnen.
Wenn Sie weitere Unterstützung benötigen, können Sie eine Supportanfrage für Google Cloud erstellen. So erhält der Supportmitarbeiter den vollständigen Kontext der zuvor durchgeführten Untersuchung, einschließlich der von Gemini generierten Beobachtungen und Hypothesen. Durch diesen Kontextaustausch wird die Kommunikation mit dem Supportteam erheblich reduziert und die Bearbeitung von Anfragen beschleunigt.
So erstellen Sie eine Supportanfrage aus einer Untersuchung:
Klicken Sie auf der Seite Untersuchungsdetails auf Support anfordern.
Status und Preise der Vorabversion
Für Gemini Cloud Assist-Prüfungen fallen während der öffentlichen Vorschau keine Gebühren an. Für die Funktion fallen Gebühren an, sobald sie allgemein verfügbar ist.
Weitere Informationen zu den Preisen nach der allgemeinen Verfügbarkeit finden Sie unter Preise für Gemini Cloud Assist.
Open-Source-Webschnittstellen
Viele Open-Source-Komponenten von Dataproc-Clustern, z. B. Apache Hadoop und Apache Spark, bieten Weboberflächen. Diese Schnittstellen können verwendet werden, um Clusterressourcen und die Leistung von Jobs zu überwachen. Sie können beispielsweise die YARN Resource Manager-UI verwenden, um die Ressourcenzuweisung für YARN-Anwendungen in einem Dataproc-Cluster anzusehen.
Persistent History Server
Open-Source-Weboberflächen, die auf einem Cluster ausgeführt werden, sind verfügbar, solange der Cluster ausgeführt wird. Sie werden jedoch beendet, wenn Sie den Cluster löschen. Wenn Sie Cluster- und Jobdaten nach dem Löschen eines Clusters ansehen möchten, können Sie einen Persistent History Server (PHS) erstellen.
Beispiel: Sie stellen einen Jobfehler oder eine Verlangsamung fest, die Sie analysieren möchten. Sie beenden oder löschen den Jobcluster und rufen dann Jobverlaufsdaten über Ihren PHS auf und analysieren sie.
Nachdem Sie einen PHS erstellt haben, aktivieren Sie ihn für einen Dataproc-Cluster oder eineGoogle Cloud Serverless for Apache Spark-BatcharbeitslastGoogle Cloud , wenn Sie den Cluster erstellen oder die Batcharbeitslast senden. Ein PHS kann auf Verlaufsdaten für Jobs zugreifen, die in mehreren Clustern ausgeführt werden. So können Sie Jobs in einem Projekt überwachen, anstatt separate Benutzeroberflächen zu überwachen, die in verschiedenen Clustern ausgeführt werden.
Dataproc-Logs
Dataproc erfasst die von Apache Hadoop, Spark, Hive, ZooKeeper und anderen Open-Source-Systemen, die in Ihren Clustern ausgeführt werden, generierten Logs und sendet sie an Cloud Logging. Diese Logs werden nach der Quelle der Logs gruppiert. So können Sie die für Sie interessanten Logs auswählen und ansehen, z. B. YARN NodeManager- und Spark Executor-Logs, die in einem Cluster generiert werden. Weitere Informationen zu Dataproc-Log-Inhalten und -Optionen finden Sie unter Dataproc-Logs.
Cloud Logging
Logging ist ein vollständig verwaltetes System zur Logverwaltung in Echtzeit. Es bietet Speicher für Logs, die von Google Cloud Diensten aufgenommen werden, sowie Tools zum Suchen, Filtern und Analysieren von Logs im großen Maßstab. Dataproc-Cluster generieren mehrere Logs, darunter Dataproc-Dienst-Agent-Logs, Cluster-Start-Logs und OSS-Komponenten-Logs wie YARN NodeManager-Logs.
Logging ist standardmäßig für Dataproc-Cluster und Serverless for Apache Spark-Batcharbeitslasten aktiviert. Logs werden regelmäßig nach Logging exportiert, wo sie auch nach dem Löschen des Clusters oder dem Abschluss der Arbeitslast erhalten bleiben.
Dataproc-Messwerte
Dataproc-Cluster- und Jobmesswerte mit dem Präfix dataproc.googleapis.com/
bestehen aus Zeitreihendaten, die Aufschluss über die Leistung eines Clusters geben, z. B. CPU-Auslastung oder Jobstatus. Dataproc-benutzerdefinierte Messwerte mit dem Präfix custom.googleapis.com/
enthalten Messwerte, die von Open-Source-Systemen ausgegeben werden, die im Cluster ausgeführt werden, z. B. der YARN-Messwert running applications
. Wenn Sie sich einen Überblick über die Dataproc-Messwerte verschaffen, können Sie Ihre Cluster effizient konfigurieren. Wenn Sie metrikbasierte Benachrichtigungen einrichten, können Sie Probleme schnell erkennen und darauf reagieren.
Messwerte für Dataproc-Cluster und -Jobs werden standardmäßig kostenlos erfasst. Die Erfassung von benutzerdefinierten Messwerten wird Kunden in Rechnung gestellt. Sie können die Erfassung benutzerdefinierter Messwerte aktivieren, wenn Sie einen Cluster erstellen. Die Erfassung von Spark-Messwerten für Serverless for Apache Spark ist standardmäßig für Spark-Batcharbeitslasten aktiviert.
Cloud Monitoring
Monitoring verwendet Clustermetadaten und -messwerte, einschließlich HDFS-, YARN-, Job- und Vorgangsmesswerten, um Einblick in den Zustand, die Leistung und die Verfügbarkeit von Dataproc-Clustern und -Jobs zu geben. Mit Monitoring können Sie Messwerte untersuchen, Diagramme hinzufügen, Dashboards erstellen und Benachrichtigungen einrichten.
Metrics Explorer
Mit dem Metrics Explorer können Sie Dataproc-Messwerte aufrufen.
Dataproc-Cluster-, Job- und Serverless for Apache Spark-Batchmesswerte werden unter den Ressourcen Cloud Dataproc Cluster
, Cloud Dataproc Job
und Cloud Dataproc Batch
aufgeführt. Benutzerdefinierte Dataproc-Messwerte werden unter der Ressource VM Instances
, Kategorie Custom
aufgeführt.
Diagramme
Mit Metrics Explorer können Sie Diagramme erstellen, in denen Dataproc-Messwerte visualisiert werden.
Beispiel: Sie erstellen ein Diagramm, um die Anzahl der aktiven Yarn-Anwendungen zu sehen, die auf Ihren Clustern ausgeführt werden, und fügen dann einen Filter hinzu, um visualisierte Messwerte nach Clusternamen oder Region auszuwählen.
Dashboards
Sie können Dashboards erstellen, um Dataproc-Cluster und -Jobs anhand von Messwerten aus mehreren Projekten und verschiedenen Google Cloud Produkten zu beobachten. Sie können Dashboards in der Google Cloud Console erstellen. Klicken Sie dazu auf der Seite Dashboards-Übersicht auf der Seite Metrics Explorer auf „Diagramm erstellen“ und speichern Sie das Diagramm.
Benachrichtigungen
Sie können Benachrichtigungen für Dataproc-Messwerte erstellen, um rechtzeitig über Cluster- oder Jobprobleme informiert zu werden.
Nächste Schritte
- Informationen zur Fehlerbehebung bei Dataproc-Fehlermeldungen
- Informationen zum Aufrufen von Diagnosedaten für Dataproc-Cluster
- Weitere Informationen finden Sie in den FAQ zu Dataproc.