Cluster konfigurieren

Auf dieser Seite wird beschrieben, wann statische Cluster in Cloud Data Fusion verwendet werden sollen. Außerdem werden kompatible Versionen und empfohlene Clusterkonfigurationen beschrieben.

Weitere Informationen finden Sie unter Cluster verwalten.

Wann sollten statische Cluster verwendet werden?

Cloud Data Fusion erstellt standardmäßig sitzungsspezifische Cluster für jede Pipeline: Der Cluster erstellt zu Beginn der Pipelineausführung einen Cluster und löscht ihn anschließend wieder.

Verwenden Sie in den folgenden Szenarien nicht die Standardeinstellung. Verwenden Sie stattdessen einen statischen Cluster:

  • Wenn es Zeit für die Erstellung eines neuen Clusters für jede Pipeline ist, ist Ihr Anwendungsfall ausreichend.

  • Wenn Ihre Organisation eine zentrale Clustererstellung erfordert. Wenn Sie beispielsweise bestimmte Richtlinien für alle Dataproc-Cluster erzwingen möchten.

Weitere Informationen finden Sie unter Pipeline für vorhandenen Dataproc-Cluster ausführen.

Versionskompatibilität

Problem: Die Version Ihrer Cloud Data Fusion-Umgebung ist möglicherweise nicht mit der Version Ihres Dataproc-Clusters kompatibel.

Die folgenden Cloud Data Fusion-Versionen unterstützen die entsprechenden Dataproc-Versionen.

Cloud Data Fusion-Version Dataproc-Version
6.1 bis 6.3* 1.3.x
6.4 und höher 1.3.x und 2.0.x

* Cloud Data Fusion-Versionen 6.1 bis 6.3 sind mit der Dataproc-Version 1.3 kompatibel. Sie benötigen keine zusätzlichen Komponenten, um sie kompatibel zu machen. Cloud Data Fusion verwendet HDFS und Spark, das in der Basisversion von Cloud Data Fusion enthalten ist.

Best Practices

Empfohlen: Verwenden Sie die folgenden Konfigurationen, wenn Sie einen statischen Cluster für Ihre Pipelines erstellen.

Parameter
yarn.nodemanager.delete.debug-delay-sec Behält YARN-Logs bei.
Empfohlener Wert: 86400 (entspricht einem Tag)
yarn.nodemanager.pmem-check-enabled Ermöglicht YARN, zu ermitteln, ob die Speicherkapazität überschritten wird, und Container zu beenden, wenn sie den physischen Speicher überschreiten.
Empfohlener Wert: false
yarn.nodemanager.vmem-check-enabled aktiviert YARN die Möglichkeit, die Limits für virtuelle Speicher zu prüfen und Container zu beenden, wenn sie über den physischen Speicher hinaus hinausgehen.
Empfohlener Wert: false.

Nächste Schritte