Clusterkonfiguration

Auf dieser Seite wird beschrieben, wann statische Dataproc-Cluster in Cloud Data Fusion, kompatible Versionen und die empfohlenen Clusterkonfigurationen verwendet werden sollten.

Wann Cluster wiederverwendet werden sollten

Ab Cloud Data Fusion 6.5.0 können Sie Dataproc-Cluster zwischen Ausführungen wiederverwenden, um die Verarbeitungszeit zu verbessern. Sie können Cluster wiederverwenden, um die Startzeit von Jobs zu verkürzen, wenn mehrere Jobs nacheinander ausgeführt werden. Weitere Informationen finden Sie unter Dataproc-Cluster wiederverwenden.

Wann werden statische Cluster verwendet?

Empfohlen: Versuchen Sie, Cluster wiederzuverwenden, um die Startzeit zu verkürzen, bevor Sie versuchen, statische Cluster zu verwenden.

Standardmäßig erstellt Cloud Data Fusion sitzungsspezifische Cluster für jede Pipeline. Ein Cluster wird zu Beginn der Pipelineausführung erstellt und gelöscht, nachdem die Pipelineausführung abgeschlossen ist.

Verwenden Sie in den folgenden Szenarien nicht die Standardeinstellung. Verwenden Sie stattdessen einen statischen Cluster:

  • Wenn die Zeit, die zum Erstellen eines neuen Clusters für jede Pipeline benötigt wird, für Ihren Anwendungsfall untragbar ist.

  • Wenn in Ihrer Organisation die Clustererstellung zentral verwaltet werden muss. Das ist beispielsweise der Fall, wenn Sie bestimmte Richtlinien für alle Dataproc-Cluster erzwingen möchten.

Wenn Sie einen statischen Cluster verwenden möchten, müssen Sie das folgende Attribut im Dataproc-Cluster festlegen:

dataproc:dataproc.conscrypt.provider.enable=false

Weitere Informationen finden Sie unter Pipeline für einen vorhandenen Dataproc-Cluster ausführen.

Einsatzmöglichkeiten für Autoscaling

Empfohlen: Verwenden Sie das vordefinierte Cloud Data Fusion-Autoscaling oder Ihre eigene Autoscaling-Richtlinie, um die Verwaltung von Clusterressourcen für die Verarbeitung in Batchpipelines zu automatisieren.

Autoscaling wird zum Herunterskalieren nicht empfohlen. Informationen zum Senken der Kosten in Zeiten mit geringer Aktivität finden Sie in den folgenden Dokumenten:

Wenn Sie zum Ausführen einer großen Pipeline das standardmäßige Compute-Profil verwenden, wird die Pipeline möglicherweise nicht mit optimaler Leistung ausgeführt. Sie ist auch nützlich, wenn Sie sich in Bezug auf die richtigen Clustergrößenanforderungen für Ihre Pipeline nicht sicher sind.

In Cloud Data Fusion Version 6.6 und höher können Sie das vordefinierte Autoscaling von Cloud Data Fusion verwenden, um die Verwaltung von Clusterressourcen zu automatisieren. Das vorkonfigurierte Compute-Profil für die automatische Skalierung ist für Ihre Pipelines möglicherweise ausreichend. Wenn Sie jedoch mehr Kontrolle benötigen, können Sie Ihre eigene Autoscaling-Richtlinie definieren.

Sie können in jeder unterstützten Version eine eigene Autoscaling-Richtlinie erstellen, um die maximale Anzahl von Workern festzulegen. Ab Cloud Data Fusion-Version 6.10.0 verwenden Instanzen standardmäßig das Dataproc-Profil mit automatischer Skalierung für sitzungsspezifische Cluster. Weitere Informationen zum Erstellen einer Autoscaling-Richtlinie finden Sie unter Autoscaling von Clustern.

Vordefiniertes Autoscaling in Cloud Data Fusion verwenden

In Version 6.6 und höher können Sie vordefiniertes Autoscaling verwenden, um Worker-Knoten entsprechend der Arbeitslast Ihrer Pipeline zu erhöhen. Vordefiniertes Autoscaling ist nur für Batchpipelines verfügbar.

Option 1: Autoscaling-Profil von Cloud Data Fusion verwenden

In Cloud Data Fusion-Instanzen, die ab Version 6.6.0 ausgeführt werden, verfügt Ihre Instanz über ein Profil namens Autoscaling Dataproc. Dies ist ein vorkonfiguriertes Dataproc-Profil, in dem vordefiniertes Autoscaling bereits aktiviert ist. Es ähnelt dem vorab erstellten Profil in Option 3, mit dem Unterschied, dass in Version 6.6.0 und Instanzen, für die ein Upgrade von 6.6.0 durchgeführt wurde, der Worker-Maschinentyp n2 ist.

  1. Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.
  2. Klicken Sie auf Instanz anzeigen, um eine Instanz in der Cloud Data Fusion-Weboberfläche zu öffnen.
  3. Rufen Sie die Seite der bereitgestellten Pipeline auf. Klicken Sie dazu auf Liste > Bereitgestellt.
  4. Klicken Sie auf Konfigurieren > Compute.
  5. Wählen Sie das Profil mit dem Namen Dataproc Autoscaling aus.

Option 2: Vordefinierte Autoscaling-Richtlinie durch Anpassen eines Profils aktivieren

Gehen Sie folgendermaßen vor, um vordefiniertes Autoscaling im Standardprofil zu aktivieren:

  1. Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.
  2. Klicken Sie auf Instanz anzeigen, um eine Instanz in der Cloud Data Fusion-Weboberfläche zu öffnen.
  3. Rufen Sie die Seite der bereitgestellten Pipeline auf. Klicken Sie dazu auf Liste > Bereitgestellt.
  4. Klicken Sie auf Konfigurieren.
  5. Klicke beim gewünschten Profil auf Anpassen.
  6. Maximieren Sie den Bereich Anzahl der Cluster-Worker.
  7. Klicken Sie auf die Ein/Aus-Schaltfläche Vordefiniertes Autoscaling verwenden.
  8. Klicken Sie auf Fertig und dann auf Speichern.

Wenn die Pipeline das nächste Mal ausgeführt wird, verwendet der Dataproc-Job die vordefinierte Autoscaling-Richtlinie von Cloud Data Fusion.

Wenn Sie vordefiniertes Autoscaling aktivieren:

  • Die Attribute Number of primary workers, Number of secondary workers und Autoscaling policy werden nicht berücksichtigt.
  • Die Konfiguration des Worker-Maschinentyps entspricht der Konfiguration des ausgewählten Profils.
  • Wenn Sie die Ein/Aus-Schaltfläche Vordefiniertes Autoscaling verwenden deaktivieren, wird das vordefinierte Autoscaling deaktiviert und dann das ursprüngliche Verhalten des Profils ausgeführt.

Laufzeitargument:

Das beschriebene Verhalten kann erreicht werden, indem der folgende Key und der folgende Value (Wert) in die Laufzeitargumente eingegeben werden:

system.profile.properties.enablePredefinedAutoScaling = true

Option 3: Vordefinierte Autoscaling-Richtlinie in einem neuen Compute-Profil aktivieren

Sie können beim Erstellen eines neuen Dataproc-Bereitstellerprofils auf die Ein/Aus-Schaltfläche Vordefiniertes Autoscaling verwenden klicken. Sie können dieses Profil dann für verschiedene Pipelines verwenden und haben mehr Kontrolle über den Worker-Maschinentyp und andere Attribute.

  1. Rufen Sie in der Google Cloud Console die Cloud Data Fusion-Seite Instanzen auf.
  2. Klicken Sie auf Instanz anzeigen, um eine Instanz in der Cloud Data Fusion-UI zu öffnen.
  3. Sie können das Profil auf System- oder Nutzerebene erstellen:

    1. Optional: Klicken Sie für den Systembereich auf Systemadministrator > Konfiguration > System-Compute-Profile > Neues Profil erstellen.
    2. Optional: Klicken Sie für den Nutzerbereich auf Menü > Namespace-Administrator > Profil erstellen.

    Eine Seite mit Bereitstellern wird geöffnet.

  4. Klicken Sie auf Dataproc.

  5. Maximieren Sie den Bereich Anzahl der Cluster-Worker.

  6. Klicken Sie auf die Ein/Aus-Schaltfläche Vordefiniertes Autoscaling verwenden.

  7. Geben Sie die anderen Details ein und klicken Sie auf Erstellen.

Sie können dieses Profil auf Ihre Pipeline anwenden. Öffnen Sie dazu die Pipeline auf der Seite Studio, klicken Sie auf Konfigurieren > Compute und wählen Sie das Profil aus. Du kannst das Profil als Standardprofil festlegen.

Weitere Informationen

Auf der Seite Compute-Konfiguration, auf der Sie eine Liste der Profile sehen können, finden Sie die Spalte Kerne insgesamt mit den maximalen vCPUs, auf die das Profil hochskaliert werden kann, z. B. Up to 84.

Versionskompatibilität

Problem: Die Version Ihrer Cloud Data Fusion-Umgebung ist möglicherweise nicht mit der Version Ihres Dataproc-Clusters kompatibel.

Empfohlen: Führen Sie ein Upgrade auf die neueste Version von Cloud Data Fusion durch und verwenden Sie eine der unterstützten Dataproc-Versionen.

Frühere Versionen von Cloud Data Fusion sind nur mit nicht unterstützten Dataproc-Versionen kompatibel. Dataproc bietet keine Aktualisierungen und keine Unterstützung für Cluster, die mit diesen Versionen erstellt wurden. Sie können einen Cluster, der mit einer nicht unterstützten Version erstellt wurde, weiterhin ausführen. Wir empfehlen jedoch, ihn durch einen Cluster zu ersetzen, der mit einer unterstützten Version erstellt wurde.

Cloud Data Fusion-Version Dataproc-Version
6.10 und höher 2.1, 2.0 *
6.9 2,1, 2,0, 1,5*
6,7–6,8 2,0, 1,5*
6,4–6,6 2*, 1,3**
6.1–6.3 1,3**

* Die Cloud Data Fusion-Versionen 6.4 und höher sind mit unterstützten Versionen von Dataproc kompatibel. Sofern keine spezifischen Betriebssystemfeatures erforderlich sind, wird empfohlen, die Image-Version major.minor anzugeben.
Damit Sie die im Dataproc-Cluster verwendete Betriebssystemversion angeben können, muss die Betriebssystemversion mit einer der unterstützten Dataproc-Versionen für Cloud Data Fusion in der vorherigen Tabelle kompatibel sein.

** Die Cloud Data Fusion-Versionen 6.1 bis 6.6 sind mit der nicht unterstützten Dataproc-Version 1.3 kompatibel.

Best Practices

Empfohlen: Verwenden Sie beim Erstellen eines statischen Clusters für Ihre Pipelines die folgenden Konfigurationen.

Parameter
yarn.nodemanager.delete.debug-delay-sec Behält YARN-Logs bei.
Empfohlener Wert: 86400 (entspricht einem Tag)
yarn.nodemanager.pmem-check-enabled Ermöglicht YARN, nach physischen Arbeitsspeicherlimits zu suchen und Container zu beenden, wenn sie den physischen Arbeitsspeicher überschreiten.
Empfohlener Wert: false
yarn.nodemanager.vmem-check-enabled Ermöglicht YARN, nach virtuellen Arbeitsspeicherlimits zu suchen und Container zu beenden, wenn sie den physischen Arbeitsspeicher überschreiten.
Empfohlener Wert: false.