Clusterkonfiguration

Auf dieser Seite wird beschrieben, wann Sie statische Dataproc-Cluster in Cloud Data Fusion verwenden sollten. Außerdem werden kompatible Versionen und empfohlene Clusterkonfigurationen beschrieben.

Wann werden Cluster wiederverwendet?

Ab Cloud Data Fusion 6.5.0 können Sie Dataproc-Cluster zwischen Ausführungen wiederverwenden, um die Verarbeitungszeit zu verbessern. Sie verwenden Cluster mehrfach, um die Zeit zum Starten von Jobs zu reduzieren, wenn mehrere Jobs nacheinander ausgeführt werden. Weitere Informationen finden Sie unter Dataproc-Cluster wiederverwenden.

Wann werden statische Cluster verwendet?

Empfohlen: Versuchen Sie, Cluster wiederzuverwenden, um die Startzeit zu verbessern, bevor Sie statische Cluster verwenden.

Cloud Data Fusion erstellt standardmäßig sitzungsspezifische Cluster für jede Pipeline: Es erstellt einen Cluster am Anfang der Pipelineausführung und löscht ihn nach Abschluss der Pipelineausführung.

Verwenden Sie in den folgenden Szenarien nicht die Standardeinstellung. Verwenden Sie stattdessen einen statischen Cluster:

  • Die Zeit, die für die Erstellung eines neuen Clusters für jede Pipeline benötigt wird, ist für Ihren Anwendungsfall nicht zulässig.

  • Wenn die Clustererstellung in Ihrer Organisation zentral verwaltet werden muss. Beispiel: Sie möchten bestimmte Richtlinien für alle Dataproc-Cluster erzwingen.

Weitere Informationen finden Sie unter Pipeline für einen vorhandenen Dataproc-Cluster ausführen.

Wann ist Autoscaling zu verwenden?

Empfohlen: Verwenden Sie das vordefinierte Cloud Data Fusion-Autoscaling oder Ihre eigene Autoscaling-Richtlinie, um die Verwaltung von Clusterressourcen für die Verarbeitung in Batchpipelines zu automatisieren.

Wenn Sie das standardmäßige Computing-Profil zum Ausführen einer großen Pipeline verwenden, wird die Pipeline möglicherweise nicht mit optimaler Leistung ausgeführt. Dies ist auch hilfreich, wenn Sie sich bezüglich der richtigen Clustergrößenanforderungen für Ihre Pipeline nicht sicher sind.

In Cloud Data Fusion Version 6.6 und höher können Sie das vordefinierte Autoscaling von Cloud Data Fusion für die Automatisierung der Verwaltung von Clusterressourcen verwenden. Das vorkonfigurierte Computing-Profil für die automatische Skalierung kann für Ihre Pipelines ausreichend sein. Wenn Sie jedoch mehr Kontrolle benötigen, können Sie stattdessen Ihre eigene Autoscaling-Richtlinie definieren.

In jeder unterstützten Version können Sie Ihre eigene Autoscaling-Richtlinie erstellen, um die maximale Anzahl der Worker festzulegen. Weitere Informationen zum Erstellen einer Autoscaling-Richtlinie finden Sie unter Cluster automatisch skalieren.

Vordefiniertes Autoscaling in Cloud Data Fusion verwenden

Sie können das vordefinierte Autoscaling verwenden, um Worker-Knoten gemäß der Arbeitslast Ihrer Pipeline ab Version 6.6 zu erhöhen. Dies ist nur für Batchpipelines verfügbar.

Option 1: Autoscaling-Profil von Cloud Data Fusion verwenden

In Cloud Data Fusion-Instanzen, die in Version 6.6 und höher ausgeführt werden, enthält Ihre Instanz ein sofort einsatzbereites Profil mit dem Namen Autoscaling Dataproc, in dem das vordefinierte Autoscaling bereits aktiviert ist. Es ähnelt dem vorab erstellten Profil in Option 3, mit der Ausnahme, dass der Worker-Maschinentyp n2 ist.

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.
  2. Klicken Sie auf Instanz ansehen, um eine Instanz in der Cloud Data Fusion-UI zu öffnen.
  3. Rufen Sie die Seite der bereitgestellten Pipeline auf, indem Sie auf Liste bereitgestellt klicken.
  4. Klicken Sie auf Configure > Compute.
  5. Wählen Sie das Profil mit dem Namen Autoscaling Dataproc aus.

Option 2: Vordefinierte Autoscaling-Richtlinie durch Anpassen eines Profils aktivieren

So aktivieren Sie vordefiniertes Autoscaling im Standardprofil:

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.
  2. Klicken Sie auf Instanz ansehen, um eine Instanz in der Cloud Data Fusion-UI zu öffnen.
  3. Rufen Sie die Seite der bereitgestellten Pipeline auf, indem Sie auf Liste bereitgestellt klicken.
  4. Klicken Sie auf Configure.
  5. Klicken Sie im Profil Ihrer Wahl auf Anpassen.
  6. Maximieren Sie den Bereich Anzahl der Cluster-Worker.
  7. Klicken Sie auf die Schaltfläche Vordefiniertes Autoscaling verwenden.
  8. Klicken Sie auf Fertig und Speichern.

Bei der nächsten Ausführung Ihrer Pipeline verwendet der Dataproc-Job die vordefinierte Autoscaling-Richtlinie von Cloud Data Fusion.

Bei Aktivierung des vordefinierten Autoscalings:

  • Die Attribute Number of primary workers, Number of secondary workers und Autoscaling policy werden nicht berücksichtigt.
  • Der Maschinentyp/die Worker-Konfiguration entspricht dem ausgewählten Profil.
  • Wenn Sie die Option Vordefiniertes Autoscaling verwenden deaktivieren, wird das vordefinierte Autoscaling deaktiviert und anschließend das ursprüngliche Verhalten des Profils ausgeführt.

Laufzeitargument :

Das obige Verhalten kann durch Eingabe des folgenden Schlüssels und Werts in den Laufzeitargumenten erreicht werden: system.profile.properties.enablePredefinedAutoScaling = true.

Option 3: Vordefinierte Autoscaling-Richtlinie in einem neuen Computing-Profil aktivieren

Sie können beim Erstellen eines neuen Dataproc-Bereitstellerprofils auf die Ein-/Aus-Schaltfläche Vordefiniertes Autoscaling verwenden klicken. Dieses Profil können Sie dann in verschiedenen Pipelines verwenden und haben mehr Kontrolle über den Worker-Maschinentyp und andere Attribute.

  1. Rufen Sie in der Google Cloud Console die Seite Cloud Data Fusion-Instanzen auf.
  2. Klicken Sie auf Instanz ansehen, um eine Instanz in der Cloud Data Fusion-UI zu öffnen.
  3. Sie können das Profil entweder auf System- oder auf Nutzerebene erstellen:

    1. Optional: Für den Systembereich: Klicken Sie auf System Admin > Configuration > System Compute Profiles > Create New Profile.
    2. (Optional) Für den Nutzerbereich: Klicken Sie auf Menü > Namespace-Administrator > Profil erstellen.

    Eine Seite mit Bereitstellern wird geöffnet.

  4. Klicken Sie auf Dataproc.

  5. Maximieren Sie den Bereich Anzahl der Cluster-Worker.

  6. Klicken Sie auf die Schaltfläche Vordefiniertes Autoscaling verwenden.

  7. Geben Sie die anderen Informationen ein und klicken Sie auf Erstellen.

Sie können dieses Profil auf Ihre Pipeline anwenden, indem Sie die Pipeline auf der Seite Studio öffnen, auf Configure > Compute klicken und das Profil auswählen. Sie können das Profil als Standard festlegen.

Weitere Details

Auf der Seite Compute-Konfiguration finden Sie die Liste der Profile in der Spalte Kerne insgesamt mit der maximalen Anzahl an vCPUs, auf die das Profil skaliert werden kann, z. B. Up to 84.

Versionskompatibilität

Problem: Die Version Ihrer Cloud Data Fusion-Umgebung ist möglicherweise nicht mit der Version Ihres Dataproc-Clusters kompatibel.

Empfohlen: Führen Sie ein Upgrade auf Cloud Data Fusion Version 6.4 oder höher aus und verwenden Sie eine der unterstützten Dataproc-Versionen.

Cloud Data Fusion-Versionen vor 6.4 sind nur mit nicht unterstützten Versionen von Dataproc kompatibel. Dataproc bietet keine Aktualisierungen und Unterstützung für Cluster, die mit diesen Versionen erstellt wurden. Sie können zwar auch einen Cluster ausführen, der mit einer nicht unterstützten Version erstellt wurde, es wird jedoch empfohlen, den Cluster durch einen neuen Cluster zu ersetzen, der mit einer unterstützten Version erstellt wurde.

Cloud Data Fusion-Version Dataproc-Version
6.1 bis 6.3* 1.3.x
6.4 und höher 1.3.x und 2.0.x

* Cloud Data Fusion-Versionen 6.1 bis 6.3 sind mit Dataproc-Version 1.3 kompatibel. Sie benötigen keine zusätzlichen Komponenten, um sie kompatibel zu machen. Cloud Data Fusion nutzt HDFS und Spark, die in der Cloud Data Fusion-Basisversion enthalten sind.

Best Practices

Konfigurationen

Empfohlen: Verwenden Sie die folgenden Konfigurationen, wenn Sie einen statischen Cluster für Ihre Pipelines erstellen.

Parameter
yarn.nodemanager.delete.debug-delay-sec Behält YARN-Logs bei.
Empfohlener Wert: 86400 (entspricht einem Tag)
yarn.nodemanager.pmem-check-enabled Ermöglicht YARN die Überprüfung auf physische Speicherlimits und das Beenden von Containern, wenn sie das Speicherkontingent überschreiten.
Empfohlener Wert: false
yarn.nodemanager.vmem-check-enabled Ermöglicht YARN, auf virtuelle Speicherlimits zu prüfen und Container zu beenden, wenn sie über den physischen Speicher hinausgehen.
Empfohlener Wert: false.