Computing-Profile verwalten

Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Er enthält alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind. Ein Compute-Profil gibt den Namen eines Bereitstellers und die Konfigurationseinstellungen für diesen Bereitsteller an.

Jedes Compute-Profil hat einen Bereich: system oder user. Sie können System-Computing-Profile für alle darunter liegenden Namespaces verwenden. Rechenprofile von Nutzern sind in einem Namespace vorhanden und nur Pipelines in diesem Namespace können Rechenprofile von Nutzern verwenden. Compute-Profile können Batchpipelines zugewiesen werden. Wenn einer Pipeline ein Rechenprofil zugewiesen wird, wird der im Profil angegebene Bereitsteller verwendet, um einen Cluster zu erstellen, in dem die Pipeline ausgeführt wird.

Ein Administrator kann beispielsweise beschließen, kleine, mittlere und große Compute-Profile zu erstellen. Er konfiguriert jedes Profil mit den Google Cloud-Anmeldedaten, die zum Erstellen und Löschen von Dataproc-Clustern im Google Cloud-Konto des Unternehmens erforderlich sind.

  • Das kleine Profil ist so konfiguriert, dass ein Cluster mit 5 Knoten erstellt wird.
  • Das mittlere Profil ist so konfiguriert, dass ein Cluster mit 20 Knoten erstellt wird.
  • Das große Profil ist so konfiguriert, dass ein Cluster mit 50 Knoten erstellt wird.

Der Administrator weist das kleine Profil Pipelines zu, die stündlich für kleine Datenmengen ausgeführt werden sollen. Sie weisen das große Profil Pipelines zu, die täglich mit einer großen Datenmenge ausgeführt werden sollen.

Standard-Computing-Profil

Standardmäßig verwendet Cloud Data Fusion Autoscaling als Compute-Profil. Das Schätzen der angemessenen Anzahl von Cluster-Workern (Knoten) für eine Arbeitslast ist schwierig und eine einzelne Clustergröße für eine gesamte Pipeline ist oft nicht ideal. Dataproc-Autoscaling bietet einen Mechanismus zur Automatisierung der Verwaltung von Clusterressourcen und aktiviert das Autoscaling von Cluster-Workern. Weitere Informationen finden Sie unter Autoscaling.

Auf der Seite Compute-Konfiguration, in der Sie eine Liste der Profile sehen, befindet sich die Spalte Gesamtzahl der Kerne mit der maximalen Anzahl von vCPUs, auf die das Profil skaliert werden kann, z. B. Up to 84.

Computing-Profile für System und Nutzer

Ein Computing-Profil gibt an, welcher Bereitsteller beim Erstellen eines Clusters verwendet werden soll, und gibt die Clusterkonfiguration an. Außerdem geben sie die Bereitstellerkonfiguration an, die beim Erstellen eines Clusters verwendet werden soll.

  • Wenn Sie ein System-Computing-Profil erstellen möchten, rufen Sie in Cloud Data Fusion Studio die Seite Systemadministration auf. Auf dieser Seite sind alle Computing-Profile des Systems aufgeführt. Hier können Sie auch neue Computing-Profile erstellen.
  • Zum Erstellen eines Compute-Nutzerprofils rufen Sie in Cloud Data Fusion Studio die Seite Namespace-Verwaltung auf und wählen dann den Namespace aus, in dem das Profil erstellt werden soll. Dann können Sie ein Profil erstellen, das nur innerhalb dieses Namespace existiert.

Compute-Profilzuweisung

Sie können Batchpipelines Compute-Profile auf folgende Arten zuweisen:

  • Weisen Sie der Cloud Data Fusion-Instanz ein Standardprofil zu.
  • Weisen Sie ein Standardprofil für einen bestimmten Namespace zu.
  • Weisen Sie einer Batchpipeline ein Profil zu, das für manuell gestartete Ausführungen verwendet werden soll.
  • Weisen Sie einem Pipelinezeitplan ein Profil zu.

Wenn im Zeitplan, der eine Ausführung auslöst, ein Profil festgelegt ist oder wenn Sie eine Pipeline manuell ausführen und dieser Pipeline ein Profil zugewiesen ist, verwendet Cloud Data Fusion dieses Rechenprofil.

Wenn kein Profil festgelegt ist, verwendet Cloud Data Fusion das Standardprofil für den Namespace. Wenn für den Namespace kein Standardprofil festgelegt ist,

Cloud Data Fusion verwendet das Standardprofil des Systems. Wenn kein Systemstandard festgelegt ist, wird das integrierte Profil verwendet.

Standard-Computing-Profil zuweisen

Wenn Sie einem Cloud Data Fusion-Namespace oder einer Cloud Data Fusion-Instanz Standardprofile zuweisen möchten, rufen Sie Cloud Data Fusion Studio auf und klicken auf Systemadministrator > Konfiguration > System-Computing-Profile. Klicken Sie auf den Stern neben dem Profilnamen, um die Standardeinstellung auszuwählen.

Optional: Standardprofile unter „Einstellungen für Mikrodienste“ festlegen

  • Zum Festlegen des Standardprofils legen Sie eine Einstellung für die Cloud Data Fusion-Instanz mit dem Schlüssel system.profile.name und dem Wert system:<profile-name> fest.
  • Zum Festlegen des Standardprofils für einen Namespace legen Sie eine Einstellung für den ausgewählten Namespace mit dem Schlüssel system.profile.name und dem Wert <scope>:<profile-name> fest.

Compute-Profil für manuelle Ausführungen zuweisen

So weisen Sie ein Profil für manuelle Pipelineausführungen zu:

  1. Rufen Sie die Detailseite der Pipeline auf.
  2. Klicken Sie auf Konfigurieren > Compute-Konfiguration.
  3. Wählen Sie ein Profil aus und klicken Sie auf Speichern. Das ausgewählte Profil wird immer dann verwendet, wenn die Pipeline manuell ausgeführt wird.

Alternativ können Sie „Einstellungen für Mikrodienste“ verwenden, um das Profil für manuelle Ausführungen festzulegen. Dazu legen Sie für die Entität DataPipelineWorkflow die Einstellung mit dem Schlüssel system.profile.name und dem Wert <scope>:<profile-name> fest.

Einem Zeitplan ein Computing-Profil zuweisen

Jedes Mal, wenn Sie einen Zeitplan für eine Pipeline erstellen, können Sie dieser ein Profil zuweisen. Wenn der Zeitplan eine Pipelineausführung auslöst, wird dieses Profil für die Ausführung verwendet. Dies gilt für Zeitpläne und Zeitpläne, die von anderen Pipelines ausgelöst werden.

Computing-Profilkonfiguration überschreiben

Wenn ein Profil erstellt wird, kann jede Konfigurationseinstellung durch Sperren unveränderlich gemacht werden. Wenn die Konfigurationseinstellungen jedoch nicht gesperrt sind, können sie zur Laufzeit überschrieben werden. So überschreiben Sie die Profilkonfiguration:

  1. Wählen Sie auf der Seite „Pipelineliste“ die bereitgestellte Pipeline aus, die Sie ausführen möchten.
  2. Klicken Sie auf der Seite „Pipelinedetails“ auf Konfigurieren.
  3. Wählen Sie ein Computing-Profil aus und klicken Sie auf Anpassen.
  4. Ändern Sie die Einstellungen und klicken Sie auf Speichern.

Sie können Laufzeitargumente und Zeitplanattribute verwenden, um die Clustergröße und andere Einstellungen zu ändern.

  • Wenn Sie das verwendete Profil überschreiben möchten, legen Sie ein Laufzeitargument mit dem Schlüssel system.profile.name und dem Wert <scope>:<profile-name> fest.
  • Wenn Sie ein Profilattribut überschreiben möchten, legen Sie ein Laufzeitargument mit dem Schlüssel system.profile.properties.<property-name> und dem Wert fest, der dem Wert für dieses Attribut entspricht.

Wenn Sie beispielsweise numWorkerssetting durch einen Wert von 10 überschreiben möchten, legen Sie ein Einstellungs- oder Laufzeitargument mit dem Schlüssel system.profile.properties.numWorkers und dem Wert 10 fest.

Nächste Schritte