Anleitungen

Wichtige und häufige Aufgaben

Bei Dataproc authentifizieren

Hier erfahren Sie, wie Sie sich bei Dataproc authentifizieren.
Cluster erstellen

Erstellen Sie einen Cluster mit der Google Cloud Console oder der Google Cloud CLI.
Teilcluster erstellen

Erstellen Sie einen Teilcluster mit einer Mindestanzahl von primären Workern.
Benutzerdefiniertes Image erstellen

Benutzerdefiniertes Image erstellen und in einem Dataproc-Cluster installieren.
Labels erstellen und verwalten

Dataproc-Nutzerlabels erstellen und verwalten
Java- und Scala-Abhängigkeiten für Spark verwalten

Hier erfahren Sie, wie Sie Java- und Scala-Abhängigkeiten verwalten und Konflikte bei Apache Spark-Anwendungen lösen.
Cluster verwalten

Einen Cluster aktualisieren oder herunterfahren.
Vertex AI Workbench-Notebooks auf Dataproc-Clustern ausführen

Führen Sie die Notebookdatei einer verwalteten Instanz in einem Dataproc-Cluster aus.
Projekt einrichten

Neues Projekt zur Verwendung von Dataproc einrichten
Cluster starten und beenden

Dataproc-Cluster starten und beenden
Job senden

Verschiedene Jobtypen mit der Google Cloud Console, der Google Cloud CLI oder über SSH an eine Clusterinstanz senden

Dataproc auf GKE

Dataproc-Hub

Dataproc-Knotengruppen

Dataproc-Treiberknotengruppen

Informationen zu Dataproc-Treiberknotengruppen.

Dataproc-Vorlagen

Dataproc-Vorlagen

Mit Dataproc-Vorlagen Dataproc-Arbeitslasten und -Jobs einrichten und ausführen

Logging und Monitoring

Zu Dataproc migrieren

Leistungsverbesserungen von Dataproc

Leistungsverbesserungen

Aktivieren Sie die Leistungsverbesserungen von Dataproc Spark und Dataproc-Connectors.

Data-Lineage-Integration aktivieren

Data Lineage in Dataproc verwenden

Aktivieren Sie Data Lineage in einem Dataproc-Cluster, um Herkunftsereignisse von Dataproc Spark-Jobs zu erfassen und in der Data Lineage API zu veröffentlichen.

Bei Dataproc authentifizieren

Cluster erstellen

Teilcluster erstellen

Benutzerdefiniertes Image erstellen

Labels erstellen und verwalten

Java- und Scala-Abhängigkeiten für Spark verwalten

Cluster verwalten

Vertex AI Workbench-Notebooks auf Dataproc-Clustern ausführen

Projekt einrichten

Cluster starten und beenden

Job senden

Dataproc in GKE – Übersicht

Kurzanleitung: Spark-Job in Dataproc in GKE ausführen

Virtuellen Dataproc on GKE-Cluster neu erstellen und aktualisieren

Virtuellen Dataproc on GKE-Cluster löschen

Benutzerdefinierte Dataproc on GKE-Container-Images

Dataproc on GKE-Cluster diagnostizieren

IAM-Rollen und -Identität für Dataproc in GKE

Logging von Dataproc in GKE

Dataproc in GKE-Knotenpools

Releaseversionen von Dataproc in GKE

Dataproc on GKE-Cluster skalieren

Übersicht über Dataproc Hub

Dataproc-Hub konfigurieren

Dataproc-Hub verwenden

Dataproc-Treiberknotengruppen

Dataproc-Vorlagen

Dataproc-Logs

Dataproc-Jobausgabe und Logs

Dataproc-Audit-Logs ansehen

Cloud Monitoring

Dataproc-Messwertbenachrichtigungen erstellen

Cloud Profiler

HDFS-Daten migrieren

Cluster migrieren

Jobs migrieren

Leistungsverbesserungen

Data Lineage in Dataproc verwenden