Übersicht zu Dataproc
Auf Cluster zugreifen
-
Cluster-Weboberflächen
Verfügbare Weboberflächen für die Open-Source-Komponenten von Dataproc und Verbindungsherstellung zu ihnen
-
Component Gateway
Component Gateway verwenden, um eine Verbindung zu Clusterkomponenten herzustellen
-
Workforce Identity-Föderation
Mitarbeitern den Zugriff auf Dataproc Component Gateway gewähren.
-
Netzwerkkonfiguration
Netzwerks des Clusters konfigurieren
-
Über SSH mit einem Cluster verbinden
Stellen Sie mit SSH eine Verbindung zu einem Clusterknoten her.
Komponenten
-
Überblick
Übersicht über Clusterkomponenten
-
Optionale Anaconda-Komponente
Anaconda-Komponente im Cluster installieren
-
Dockeroptionale Komponente
Docker-Komponente im Cluster installieren
-
Optionale Flink-Komponente
Flink-Komponente im Cluster installieren
-
Optionale HBase-KomponenteBeta
HBase-Komponente im Cluster installieren
-
Optionale Hive WebHCat-Komponente
Hive WebHCat-Komponente im Cluster installieren
-
Optionale Hudi-Komponente
Hudi-Komponente im Cluster installieren
-
Optionale Jupyter-Komponente
Jupyter-Komponente im Cluster installieren
-
Optionale Presto-Komponente
Presto-Komponente im Cluster installieren
-
Optionale Ranger-Komponente
Installieren Sie die Ranger-Komponente im Cluster.
-
Ranger mit Kerberos verwenden
Verwenden Sie die Ranger-Komponente mit Kerberos auf Ihrem Cluster.
-
Ranger-Schema sichern und wiederherstellen
Folgen Sie der Anleitung, um ein Ranger-Schema zu sichern und wiederherzustellen.
-
Optionale Solr-Komponente
Solr-Komponente im Cluster installieren
-
Optionale Trino-Komponente
Installieren Sie die Trino-Komponente im Cluster.
-
Optionale Zeppelin-Komponente
Zeppelin-Komponente im Cluster installieren
-
Optionale Zookeeper-Komponente
Zookeeper-Komponente im Cluster installieren
Computing-Optionen
-
Unterstützte Maschinentypen
Mit Dataproc können Sie benutzerdefinierte Maschinentypen für spezielle Arbeitslasten angeben.
-
GPU-Cluster
Graphics Processing Units (GPUs) mit Dataproc-Clustern verwenden
-
Lokaler SSD-Speicher
Hängen Sie lokale SSDs an Dataproc-Cluster an.
-
Mindest-CPU-Plattform
Geben Sie eine Mindest-CPU-Plattform für den Dataproc-Cluster an.
-
Persistent Solid State Drive (PD-SSD) Bootlaufwerke
Cluster mit nichtflüchtigen SSD-Bootlaufwerken erstellen
-
Sekundäre Worker – VMs auf Abruf und nicht auf Abruf verfügbare VMs
Sekundäre Worker auf Abruf und nicht auf Abruf verfügbare sekundäre Worker in Ihrem Dataproc-Cluster verstehen und verwenden.
Jobs konfigurieren und ausführen
-
Jobdauer
Informationen zur Dataproc-Jobdrosselung
-
Fehler bei Jobverzögerungen beheben
Häufige Ursachen für Jobverzögerungen verstehen und vermeiden
-
Persistent History Server
Informationen zum Dataproc Persistent History Server.
-
Neustartfähige Jobs
Jobs erstellen, die nach einem Fehler neu gestartet werden. Für langfristige Jobs und Streaming-Jobs geeignet.
-
Spark-Job in Dataproc in GKE ausführen
Erstellen Sie einen virtuellen Dataproc on GKE-Cluster und führen Sie dann einen Spark-Job im virtuellen Cluster aus.
-
Spark-Job-Laufzeitumgebung mit Docker auf YARN anpassen
Verwenden Sie ein Docker-Image, um die Spark-Jobumgebung anzupassen.
-
Spark-Jobs mit DataprocFileOutputCommitter ausführen
Spark-Jobs mit der erweiterten, konfigurierbaren Version der Open-Source-Version
FileOutputCommitter
von Dataproc ausführen.
Cluster konfigurieren
-
Autoscaling-Cluster
Informationen zum Verwenden der automatischen Skalierung, um die Größe von Clustern entsprechend den Anforderungen von Nutzerarbeitslasten automatisch anzupassen
-
Automatische Zonenplatzierung
Dataproc eine Zone für den Cluster auswählen lassen
-
Cluster-Caching
Verwenden Sie Cluster-Caching, um die Leistung zu verbessern.
-
Clustermetadaten
Informationen zu Clustermetadaten in Dataproc und zum Festlegen eigener benutzerdefinierter Metadaten
-
Clusterattribute
Konfigurationsattribute für Open-Source-Komponenten von Dataproc verwenden
-
Cluster rotation
Cluster rotieren, die Teil eines Clusterpools sind.
-
Modus für verbesserte Flexibilität
Zur kontinuierlichen Ausführung von Jobs ändern Sie den Speicherort von Zwischendaten.
-
Flexible VMs
Geben Sie VM-Typen an, die Sie in Ihrem Cluster verwenden können, wenn die angeforderten VMs nicht verfügbar sind.
-
Modus für hohe Verfügbarkeit
Widerstandsfähigkeit von HDFS und YARN gegen die Nichtverfügbarkeit von Diensten erhöhen
-
Initialisierungsaktionen
Aktionen angeben, die bei der Einrichtung auf allen oder einigen Cluster-Knoten ausgeführt werden
-
Netzwerkkonfiguration
Netzwerks des Clusters konfigurieren
-
Cluster skalieren
Anzahl der Worker-Knoten in einem Cluster erhöhen oder reduzieren, auch wenn Jobs ausgeführt werden
-
Planmäßiges Löschen
Ihren Cluster nach einem festgelegten Zeitraum oder zu einem bestimmten Zeitpunkt löschen
-
Sicherheitskonfiguration
Cluster-Sicherheitsfunktionen aktivieren
-
Confidential Computing
Cluster mit Confidential VMs erstellen
-
Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK)
Verschlüsselte Schlüssel für Dataproc-Cluster und Jobdaten verwalten
-
Ranger Cloud Storage-Plug-in
Verwenden Sie das Ranger Cloud Storage-Plug-in mit Dataproc.
-
Dataproc-Dienstkonten
Informationen zu Dataproc-Dienstkonten.
-
Cluster mit einzelnem Knoten
Einfache Sandbox-Cluster mit nur einem Knoten erstellen
-
Clusterknoten für einzelne Mandanten
Cluster auf Knoten für einzelne Mandanten erstellen.
-
Staging- und temporäre Buckets
Informationen zum Dataproc-Staging und zu temporären Buckets.
Connectors
-
BigQuery-Connector
BigQuery for Apache Hadoop auf Dataproc-Clustern verwenden
-
BigQuery-Connector-Codebeispiele
BigQuery-Codebeispiele ansehen.
-
Bigtable mit Dataproc
Mit Bigtable Apache HBase kompatible API mit Dataproc-Clustern verwenden
-
Cloud Storage-Connector
Verwenden Sie den Cloud Storage-Connector.
-
BigQuery-Connector für Hive
Informationen zum BigQuery-Connector für Hive.
-
Pub/Sub Lite mit Dataproc
Verwenden Sie Pub/Sub Lite mit Dataproc.
Identitäts- und Zugriffsverwaltung
-
Dataproc-Berechtigungen und IAM-Rollen
IAM-Rollen einrichten, damit Nutzer und Gruppen auf die Dataproc-Ressourcen Ihres Projekts zugreifen können
-
Dataproc-Principals und -Rollen
Informationen zu Dataproc-Hauptkonten und den Rollen, die zum Erstellen, Verwalten und Ausführen von Aufgaben in einem Cluster erforderlich sind
-
Dataproc Granular IAM
Detaillierte clusterspezifische Berechtigungen einrichten
-
Persönliche Cluster Dataproc-Authentifizierung
Richten Sie die persönliche Clusterauthentifizierung ein.
-
Dataproc-Dienstkontobasierte Mehrmandantenfähigkeit
Richten Sie mehrmandantenfähige Cluster ein.
-
Dataproc-Ressourcen mit benutzerdefinierten Einschränkungen verwalten
Benutzerdefinierte Einschränkungen zum Verwalten von Dataproc-Ressourcen einrichten.
Regionale Dataproc-Endpunkte
Versionsverwaltung
-
Überblick
In Dataproc-Clustern verwendete Softwareversionen und wie sie ausgewählt werden
-
Releaseversionen 2.1.x
Dataproc-Image-Version 2.1.
-
Releaseversionen 2.0.x
Dataproc-Image-Version 2.0.
-
Releaseversionen 1.5.x
Dataproc-Image-Version 1.5.
-
Releaseversionen 1.4.x
Dataproc-Image-Version 1.4.
-
Listen der Versionen der Dataproc-Cluster-Images
Listen der Versionen, die derzeit in Dataproc-Clustern unterstützt werden.
Workflowvorlagen
-
Überblick
Mehr Informationen zu Workflowvorlagen
-
Monitoring und Debugging von Workflows
Monitoring und Debugging von Workflows
-
Parametrisierung
Informationen zum Parametrisieren von Workflowvorlagen
-
YAML-Dateien verwenden
Informationen zum Verwenden von YAML-Dateien im Workflow
-
Clusterauswahl verwenden
Informationen zum Verwenden der Clusterauswahl im Workflow
-
Inline-Workflows verwenden
Inline-Workflows erstellen und ausführen
-
Workflows verwenden
Informationen zum Einrichten und Ausführen von Workflows
-
Workflow-Planungslösungen
Workflows mit Cloud Scheduler, Cloud Functions und Cloud Composer ausführen