Übersicht zu Dataproc
Auf Cluster zugreifen
-
Cluster-Weboberflächen
Verfügbare Weboberflächen für die Open-Source-Komponenten von Dataproc und wie Sie eine Verbindung zu ihnen herstellen.
-
Component Gateway
Component Gateway verwenden, um eine Verbindung zu Clusterkomponenten herzustellen
-
Netzwerkkonfiguration
Netzwerks des Clusters konfigurieren
-
Über SSH mit einem Cluster verbinden
Verwenden Sie SSH, um eine Verbindung zu einem Clusterknoten herzustellen.
Komponenten
-
Übersicht
Übersicht über Clusterkomponenten
-
Optionale Anaconda-Komponente
Anaconda-Komponente im Cluster installieren
-
Dockeroptionale Komponente
Docker-Komponente im Cluster installieren
-
Optionale Druid-KomponenteAlpha
Druid-Komponente im Cluster installieren
-
Optionale Flink-Komponente
Flink-Komponente im Cluster installieren
-
Optionale HBase-KomponenteBeta
HBase-Komponente im Cluster installieren
-
Optionale Hive WebHCat-Komponente
Hive WebHCat-Komponente im Cluster installieren
-
Optionale Hudi-Komponente
die Hudi-Komponente im Cluster installieren
-
Optionale Jupyter-Komponente
Jupyter-Komponente im Cluster installieren
-
Optionale Presto-Komponente
Presto-Komponente im Cluster installieren
-
Optionale Ranger-Komponente
Ranger-Komponente im Cluster installieren
-
Ranger mit Kerberos verwenden
Ranger-Komponente mit Kerberos in Ihrem Cluster verwenden
-
Ranger-Schema sichern und wiederherstellen
Folgen Sie der Anleitung, um ein Ranger-Schema zu sichern und wiederherzustellen.
-
Optionale Solr-Komponente
Solr-Komponente im Cluster installieren
-
Optionale Trino-Komponente
Trino-Komponente im Cluster installieren
-
Optionale Zeppelin-Komponente
Zeppelin-Komponente im Cluster installieren
-
Optionale Zookeeper-Komponente
Zookeeper-Komponente im Cluster installieren
Computing-Optionen
-
Unterstützte Maschinentypen
Mit Dataproc können Sie benutzerdefinierte Maschinentypen für spezielle Arbeitslasten angeben.
-
GPU-Cluster
Grafikprozessoren (Graphics Processing Unit – GPUs) mit Dataproc-Clustern verwenden
-
Lokaler SSD-Speicher
Lokale SSDs zu Dataproc-Clustern hinzufügen
-
Mindest-CPU-Plattform
Geben Sie eine Mindest-CPU-Plattform für Ihren Dataproc-Cluster an.
-
Persistent Solid State Drive (PD-SSD) Bootlaufwerke
Cluster mit nichtflüchtigen SSD-Bootlaufwerken erstellen
-
Sekundäre Worker – VMs auf Abruf und nicht auf Abruf verfügbare VMs
Sekundäre Worker auf Abruf und nicht auf Abruf in Ihrem Dataproc-Cluster verstehen und verwenden
Jobs konfigurieren und ausführen
-
Jobdauer
Informationen zur Drosselung von Dataproc-Jobs.
-
Fehlerbehebung bei Jobverzögerungen
Häufige Gründe für Jobverzögerungen verstehen und vermeiden
-
Persistent History Server
Informationen zum Dataproc Persistent History Server.
-
Neustartfähige Jobs
Jobs erstellen, die nach einem Fehler neu gestartet werden. Für langfristige Jobs und Streaming-Jobs geeignet.
-
Spark-Job in Dataproc in GKE ausführen
Dataproc in einem virtuellen GKE-Cluster erstellen und dann einen Spark-Job im virtuellen Cluster ausführen.
-
Spark-Job-Laufzeitumgebung mit Docker unter YARN anpassen
Docker-Image zum Anpassen der Spark-Jobumgebung verwenden
Cluster konfigurieren
-
Autoscaling-Cluster
Informationen zum Verwenden der automatischen Skalierung, um die Größe von Clustern entsprechend den Anforderungen von Nutzerarbeitslasten automatisch anzupassen
-
Automatische Zonenplatzierung
Dataproc eine Zone für Ihren Cluster auswählen lassen
-
Clustermetadaten
Hier erfahren Sie mehr über Clustermetadaten von Dataproc und wie Sie Ihre eigenen benutzerdefinierten Metadaten festlegen.
-
Clusterattribute
Konfigurationsattribute für die Open-Source-Komponenten von Dataproc und Zugriffsmöglichkeiten.
-
Modus für verbesserte Flexibilität
Zur kontinuierlichen Ausführung von Jobs ändern Sie den Speicherort von Zwischendaten.
-
Modus für hohe Verfügbarkeit
Widerstandsfähigkeit von HDFS und YARN gegen die Nichtverfügbarkeit von Diensten erhöhen
-
Initialisierungsaktionen
Aktionen angeben, die bei der Einrichtung auf allen oder einigen Cluster-Knoten ausgeführt werden
-
Netzwerkkonfiguration
Netzwerks des Clusters konfigurieren
-
Cluster skalieren
Anzahl der Worker-Knoten in einem Cluster erhöhen oder reduzieren, auch wenn Jobs ausgeführt werden
-
Planmäßiges Löschen
Ihren Cluster nach einem festgelegten Zeitraum oder zu einem bestimmten Zeitpunkt löschen
-
Sicherheitskonfiguration
Cluster-Sicherheitsfunktionen aktivieren
-
Confidential Computing
Cluster mit Confidential VMs erstellen
-
Vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK)
Verschlüsselte Schlüssel für Dataproc-Cluster und Jobdaten verwalten.
-
Ranger Cloud Storage-Plug-in
Ranger-Cloud Storage-Plug-in mit Dataproc verwenden
-
Dataproc-Dienstkonten
Informationen zu Dataproc-Dienstkonten
-
Cluster mit einzelnem Knoten
Einfache Sandbox-Cluster mit nur einem Knoten erstellen
-
Clusterknoten für einzelne Mandanten
Cluster auf Knoten für einzelne Mandanten erstellen
-
Staging- und temporäre Buckets
Informationen zum Dataproc-Staging und zu temporären Buckets
Connectors
-
BigQuery-Connector
BigQuery für Apache Hadoop in Dataproc-Clustern verwenden
-
BigQuery-Connector-Codebeispiele
BigQuery-Codebeispiele ansehen
-
Bigtable mit Dataproc
Cloud Bigtable Apache HBase-kompatible API mit Dataproc-Clustern verwenden
-
Cloud Storage-Connector
Verwenden Sie den Cloud Storage-Connector in den Clustern.
-
Pub/Sub Lite mit Dataproc
Verwenden Sie Pub/Sub Lite mit Dataproc.
Identitäts- und Zugriffsverwaltung
-
Dataproc-Berechtigungen und IAM-Rollen
IAM-Rollen einrichten, damit Nutzer und Gruppen auf die Dataproc-Ressourcen Ihres Projekts zugreifen können.
-
Dataproc-Principals und -Rollen
Informieren Sie sich über Dataproc-Hauptkonten und die Rollen, die zum Erstellen, Verwalten und Ausführen von Aufgaben in einem Cluster erforderlich sind.
-
Dataproc Granular IAM
Detaillierte clusterspezifische Berechtigungen einrichten
-
Persönliche Cluster Dataproc-Authentifizierung
Richten Sie die persönliche Clusterauthentifizierung ein.
-
Dataproc-Dienstkonto-basierte Mandantenfähigkeit
Richten Sie mehrmandantenfähige Cluster ein.
-
Dataproc-Ressourcen mit benutzerdefinierten Einschränkungen verwalten
Benutzerdefinierte Einschränkungen zum Verwalten von Dataproc-Ressourcen einrichten.
Regionale Dataproc-Endpunkte
Versionsverwaltung
-
Übersicht
In Dataproc-Clustern verwendete Softwareversionen und wie sie ausgewählt werden
-
Übersicht
In Dataproc-Clustern verwendete Softwareversionen und wie sie ausgewählt werden
-
Releaseversionen 2.1.x
Dataproc-Image-Version 2.1.
-
Releaseversionen 2.0.x
Dataproc-Image-Version 2.0.
-
Releaseversionen 1.5.x
Dataproc-Image-Version 1.5.
-
Releaseversionen 1.4.x
Dataproc-Image-Version 1.4.
-
Versionen von Dataproc-Cluster-Image-Versionen
Listen der Versionen, die derzeit in Dataproc-Clustern unterstützt werden.
Workflowvorlagen
-
Übersicht
Mehr Informationen zu Workflowvorlagen
-
Monitoring und Debugging von Workflows
Monitoring und Debugging von Workflows
-
Parametrisierung
Informationen zum Parametrisieren von Workflowvorlagen
-
YAML-Dateien verwenden
Informationen zum Verwenden von YAML-Dateien im Workflow
-
Clusterauswahl verwenden
Informationen zum Verwenden der Clusterauswahl im Workflow
-
Inline-Workflows verwenden
Inline-Workflows erstellen und ausführen
-
Workflows verwenden
Informationen zum Einrichten und Ausführen von Workflows
-
Workflow-Planungslösungen
Workflows mit Cloud Scheduler, Cloud Functions und Cloud Composer ausführen