Last reviewed 2023-07-20 UTC
Dataproc ist ein vollständig verwalteter, skalierbarer Dienst zum Ausführen von Apache Hadoop- und Spark-Jobs. Mit Dataproc können virtuelle Maschinen nach Bedarf angepasst und skaliert werden. Dataproc ist nahtlos in Cloud Storage, BigQuery, Bigtable und andere Google Cloud-Dienste eingebunden.
Best Practices
- Dataproc-Hochverfügbarkeitsmodus: Vergleichen Sie den Hadoop-Modus für hohe Verfügbarkeit mit dem Standardmodus ohne Hochverfügbarkeit in Bezug auf Instanznamen, Apache ZooKeeper, Hadoop Distributed File System (HDFS) und Yet Another Resource Negotiator. YARN) Außerdem erstellen Sie einen Hochverfügbarkeitscluster.
- Autoscaling-Cluster: Verwendung von Dataproc-Autoscaling, Erstellung einer Autoscaling-Richtlinie, Verwendung von Multi-Cluster-Richtlinien, Best Practices für die Zuverlässigkeit der Konfiguration von Autoscaling sowie Messwerte und Logs.
- Dataproc Enhanced Flexibility Mode (EFM): Beispiele für die Verwendung des Enhanced Flexibility Mode, um Verzögerungen beim Jobfortschritt, erweiterte Konfigurationen wie Partitionierung und Parallelität und die ordnungsgemäße Außerbetriebnahme von YARN in EFS-Clustern zu minimieren.
- Ordnungsgemäße Außerbetriebnahme: Verwenden Sie eine ordnungsgemäße Außerbetriebnahme, um die Auswirkungen des Entfernens von Workern aus einem Cluster zu minimieren, diese Funktion mit sekundären Workern zu verwenden und Befehlsbeispiele für die ordnungsgemäße Außerbetriebnahme zu verwenden.
- Neustartfähige Jobs: Mit optionalen Einstellungen können Sie Jobs so einrichten, dass sie bei einem Fehler neu gestartet werden, um häufige Arten von Jobfehlern zu vermeiden, einschließlich Problemen aufgrund fehlenden Speichers und eines unerwarteten Neustarts von virtuellen Compute Engine-Maschinen.