Übersicht zu Dataproc
Auf Cluster zugreifen
-
Cluster-Weboberflächen
Verfügbare Weboberflächen für die Open-Source-Komponenten von Dataproc und Verbindungsherstellung zu ihnen
-
Component Gateway
Component Gateway verwenden, um eine Verbindung zu Clusterkomponenten herzustellen
-
Workforce Identity-Föderation
Gewähren Sie Mitarbeitern Zugriff auf das Dataproc Component Gateway.
-
Netzwerkkonfiguration
Netzwerks des Clusters konfigurieren
-
Über SSH mit einem Cluster verbinden
Stellen Sie mit SSH eine Verbindung zu einem Clusterknoten her.
Komponenten
-
Überblick
Übersicht über Clusterkomponenten
-
Optionale Anaconda-Komponente
Anaconda-Komponente im Cluster installieren
-
Dockeroptionale Komponente
Docker-Komponente im Cluster installieren
-
Optionale Flink-Komponente
Installieren Sie die Flink-Komponente im Cluster.
-
Optionale HBase-KomponenteBeta
HBase-Komponente im Cluster installieren
-
Optionale Hive WebHCat-Komponente
Hive WebHCat-Komponente im Cluster installieren
-
Optionale Hudi-Komponente
Hudi-Komponente im Cluster installieren
-
Optionale Jupyter-Komponente
Jupyter-Komponente im Cluster installieren
-
Optionale Presto-Komponente
Presto-Komponente im Cluster installieren
-
Optionale Ranger-Komponente
Installieren Sie die Ranger-Komponente im Cluster.
-
Ranger mit Kerberos verwenden
Verwenden Sie die Ranger-Komponente mit Kerberos in Ihrem Cluster.
-
Ranger-Schema sichern und wiederherstellen
Folgen Sie der Anleitung, um ein Ranger-Schema zu sichern und wiederherzustellen.
-
Optionale Solr-Komponente
Installieren Sie die Solr-Komponente im Cluster.
-
Optionale Trino-Komponente
Trino-Komponente im Cluster installieren
-
Optionale Zeppelin-Komponente
Zeppelin-Komponente im Cluster installieren
-
Optionale Zookeeper-Komponente
Zookeeper-Komponente im Cluster installieren
Computing-Optionen
-
Unterstützte Maschinentypen
Mit Dataproc können Sie benutzerdefinierte Maschinentypen für spezielle Arbeitslasten angeben.
-
GPU-Cluster
Graphics Processing Units (GPUs) mit Dataproc-Clustern verwenden
-
Lokaler SSD-Speicher
Lokale SSDs an Dataproc-Cluster anhängen
-
Mindest-CPU-Plattform
Geben Sie eine Mindest-CPU-Plattform für den Dataproc-Cluster an.
-
Persistent Solid State Drive (PD-SSD) Bootlaufwerke
Cluster mit nichtflüchtigen SSD-Bootlaufwerken erstellen
-
Sekundäre Worker – VMs auf Abruf und nicht auf Abruf verfügbare VMs
Sekundäre Worker auf Abruf und nicht auf Abruf verfügbare sekundäre Worker im Dataproc-Cluster verstehen und verwenden
Jobs konfigurieren und ausführen
-
Jobdauer
Informationen zur Dataproc-Jobdrosselung
-
Fehlerbehebung bei Jobverzögerungen
Häufige Ursachen von Jobverzögerungen verstehen und vermeiden
-
Persistent History Server
Informationen zum Dataproc Persistent History Server.
-
Neustartfähige Jobs
Jobs erstellen, die nach einem Fehler neu gestartet werden. Für langfristige Jobs und Streaming-Jobs geeignet.
-
Spark-Job in Dataproc in GKE ausführen
Erstellen Sie einen virtuellen Dataproc in GKE-Cluster und führen Sie dann einen Spark-Job auf dem virtuellen Cluster aus.
-
Laufzeitumgebung von Spark-Jobs mit Docker auf YARN anpassen
Docker-Image zum Anpassen der Spark-Jobumgebung verwenden
-
Spark-Jobs mit DataprocFileOutputCommitter ausführen
Spark-Jobs mit der erweiterten, konfigurierbaren Version der Open-Source-Version
FileOutputCommitter
von Dataproc ausführen
Cluster konfigurieren
-
Autoscaling-Cluster
Informationen zum Verwenden der automatischen Skalierung, um die Größe von Clustern entsprechend den Anforderungen von Nutzerarbeitslasten automatisch anzupassen
-
Automatische Zonenplatzierung
Dataproc eine Zone für Ihren Cluster auswählen lassen
-
Cluster-Caching
Verwenden Sie Cluster-Caching, um die Leistung zu verbessern.
-
Clustermetadaten
Hier erfahren Sie mehr über die Clustermetadaten von Dataproc und darüber, wie Sie Ihre eigenen benutzerdefinierten Metadaten festlegen.
-
Clusterattribute
Konfigurationsattribute für die Open-Source-Komponenten von Dataproc und Zugriff darauf.
-
Modus für verbesserte Flexibilität
Zur kontinuierlichen Ausführung von Jobs ändern Sie den Speicherort von Zwischendaten.
-
Flexible VMs
Geben Sie VM-Typen an, die Sie in Ihrem Cluster verwenden können, wenn die angeforderten VMs nicht verfügbar sind.
-
Modus für hohe Verfügbarkeit
Widerstandsfähigkeit von HDFS und YARN gegen die Nichtverfügbarkeit von Diensten erhöhen
-
Initialisierungsaktionen
Aktionen angeben, die bei der Einrichtung auf allen oder einigen Cluster-Knoten ausgeführt werden
-
Netzwerkkonfiguration
Netzwerks des Clusters konfigurieren
-
Cluster skalieren
Anzahl der Worker-Knoten in einem Cluster erhöhen oder reduzieren, auch wenn Jobs ausgeführt werden
-
Planmäßiges Löschen
Ihren Cluster nach einem festgelegten Zeitraum oder zu einem bestimmten Zeitpunkt löschen
-
Sicherheitskonfiguration
Cluster-Sicherheitsfunktionen aktivieren
-
Confidential Computing
Cluster mit Confidential VMs erstellen
-
Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK)
Verschlüsselte Schlüssel für Dataproc-Cluster und Jobdaten verwalten
-
Ranger Cloud Storage-Plug-in
Verwenden Sie das Ranger Cloud Storage-Plug-in mit Dataproc.
-
Dataproc-Dienstkonten
Informationen zu Dataproc-Dienstkonten
-
Cluster mit einzelnem Knoten
Einfache Sandbox-Cluster mit nur einem Knoten erstellen
-
Clusterknoten für einzelne Mandanten
Cluster auf Knoten für einzelne Mandanten erstellen.
-
Staging- und temporäre Buckets
Informationen zum Dataproc-Staging und zu temporären Buckets.
Connectors
-
BigQuery-Connector
BigQuery for Apache Hadoop in Dataproc-Clustern verwenden
-
BigQuery-Connector-Codebeispiele
BigQuery-Codebeispiele ansehen
-
Bigtable mit Dataproc
Cloud Bigtable Apache HBase-kompatible API mit Dataproc-Clustern verwenden
-
Cloud Storage-Connector
Verwenden Sie den Cloud Storage-Connector in den Clustern.
-
Pub/Sub Lite mit Dataproc
Verwenden Sie Pub/Sub Lite mit Dataproc.
Identitäts- und Zugriffsverwaltung
-
Dataproc-Berechtigungen und IAM-Rollen
IAM-Rollen einrichten, damit Nutzer und Gruppen auf die Dataproc-Ressourcen Ihres Projekts zugreifen können
-
Dataproc-Principals und -Rollen
Informationen zu Dataproc-Hauptkonten und Rollen, die zum Erstellen, Verwalten und Ausführen von Aufgaben in einem Cluster erforderlich sind
-
Dataproc Granular IAM
Detaillierte clusterspezifische Berechtigungen einrichten
-
Persönliche Cluster Dataproc-Authentifizierung
Richten Sie die persönliche Clusterauthentifizierung ein.
-
Auf Dataproc-Dienstkonto basierende Mehrmandantenfähigkeit
Richten Sie mehrmandantenfähige Cluster ein.
-
Dataproc-Ressourcen mit benutzerdefinierten Einschränkungen verwalten
Richten Sie benutzerdefinierte Einschränkungen zum Verwalten von Dataproc-Ressourcen ein.
Regionale Dataproc-Endpunkte
Versionsverwaltung
-
Überblick
In Dataproc-Clustern verwendete Softwareversionen und wie sie ausgewählt werden
-
Releaseversionen 2.1.x
Dataproc-Image-Version 2.1.
-
Releaseversionen 2.0.x
Dataproc-Image-Version 2.0.
-
Releaseversionen 1.5.x
Dataproc-Image-Version 1.5.
-
Releaseversionen 1.4.x
Dataproc-Image-Version 1.4.
-
Versionslisten der Dataproc-Cluster-Images
Listen der Versionen, die derzeit in Dataproc-Clustern unterstützt werden
Workflowvorlagen
-
Überblick
Mehr Informationen zu Workflowvorlagen
-
Monitoring und Debugging von Workflows
Monitoring und Debugging von Workflows
-
Parametrisierung
Informationen zum Parametrisieren von Workflowvorlagen
-
YAML-Dateien verwenden
Informationen zum Verwenden von YAML-Dateien im Workflow
-
Clusterauswahl verwenden
Informationen zum Verwenden der Clusterauswahl im Workflow
-
Inline-Workflows verwenden
Inline-Workflows erstellen und ausführen
-
Workflows verwenden
Informationen zum Einrichten und Ausführen von Workflows
-
Workflow-Planungslösungen
Workflows mit Cloud Scheduler, Cloud Functions und Cloud Composer ausführen