Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Es enthält alle Informationen, die zum Einrichten und Löschen der physischen Ausführungsumgebung einer Pipeline erforderlich sind. Ein Compute-Profil gibt den Namen eines Bereitstellers und die Konfigurationseinstellungen für diesen Anbieter an.
Jedes Compute-Profil hat einen Gültigkeitsbereich: system oder user. Sie können System-Rechenprofile für alle darunter liegenden Namespaces verwenden. Nutzer-Compute-Profile befinden sich in einem Namespace und können nur von Pipelines in diesem Namespace verwendet werden. Batchpipelines können Compute-Profile zugewiesen werden. Wenn einer Pipeline ein Compute-Profil zugewiesen wird, wird der im Profil angegebene Bereitsteller verwendet, um einen Cluster zu erstellen, in dem die Pipeline ausgeführt wird.
Ein Administrator kann beispielsweise kleine, mittlere und große Compute-Profile erstellen. Er konfiguriert jedes Profil mit den Google CloudGoogle Cloud Anmeldedaten, die zum Erstellen und Löschen von Dataproc-Clustern im Konto des Unternehmens erforderlich sind.
- Das kleine Profil ist so konfiguriert, dass ein Cluster mit 5 Knoten erstellt wird.
- Das mittlere Profil ist für die Erstellung eines Clusters mit 20 Knoten konfiguriert.
- Das große Profil ist so konfiguriert, dass ein Cluster mit 50 Knoten erstellt wird.
Der Administrator weist das kleine Profil Pipelines zu, die stündlich mit kleinen Datenmengen ausgeführt werden sollen. Er weist das große Profil Pipelines zu, die täglich mit einer großen Datenmenge ausgeführt werden sollen.
Standard-Rechenprofil
In Cloud Data Fusion wird standardmäßig „Autoscale“ als Compute-Profil verwendet. Das Schätzen der richtigen Anzahl von Cluster-Workern (Knoten) für eine Arbeitslast ist schwierig und eine einzelne Clustergröße für eine gesamte Pipeline ist oft nicht ideal. Dataproc Autoscaling bietet einen Mechanismus zur Automatisierung der Clusterressourcenverwaltung und ermöglicht das Autoscaling von Cluster-Worker-VMs. Weitere Informationen finden Sie unter Autoscaling.
Auf der Seite Compute-Konfiguration, auf der eine Liste der Profile angezeigt wird, gibt es die Spalte Kerne insgesamt mit der maximalen Anzahl von vCPUs, auf die das Profil skaliert werden kann, z. B. Up to 84
.
System- und Nutzer-Compute-Profile
Ein Compute-Profil gibt an, welcher Bereitsteiler beim Erstellen eines Clusters verwendet werden soll, und gibt die Clusterkonfiguration an. Außerdem wird die Bereitstellungskonfiguration angegeben, die beim Erstellen eines Clusters verwendet werden soll.
- Wenn Sie ein System-Rechenprofil erstellen möchten, rufen Sie in Cloud Data Fusion Studio die Seite Systemadministrator auf. Auf dieser Seite werden alle System-Rechenprofile aufgelistet und Sie können neue System-Rechenprofile erstellen.
- Wenn Sie ein Nutzer-Rechenprofil erstellen möchten, rufen Sie in Cloud Data Fusion Studio die Seite Verwaltung des Namespace auf und wählen Sie den Namespace aus, in dem das Profil erstellt werden soll. Anschließend können Sie ein Profil erstellen, das nur in diesem Namespace vorhanden ist.
Zuweisung von Berechnungsprofilen
Sie können Batch-Pipelines auf folgende Arten Compute-Profile zuweisen:
- Weisen Sie der Cloud Data Fusion-Instanz ein Standardprofil zu.
- Weisen Sie einem bestimmten Namespace ein Standardprofil zu.
- Weisen Sie einer Batchpipeline ein Profil zu, das für manuell gestartete Ausführungen verwendet werden soll.
- Weisen Sie einem Pipelinezeitplan ein Profil zu.
Wenn im Zeitplan ein Profil festgelegt ist, das einen Lauf auslöst, oder wenn Sie eine Pipeline manuell ausführen und dieser Pipeline ein Profil zugewiesen ist, verwendet Cloud Data Fusion dieses Compute-Profil.
Wenn kein Profil festgelegt ist, verwendet Cloud Data Fusion das Standardprofil für den Namespace. Wenn für den Namespace kein Standardprofil festgelegt ist,
In Cloud Data Fusion wird das Standardprofil des Systems verwendet. Wenn kein Systemstandard festgelegt ist, wird das integrierte Profil verwendet.
Standard-Computing-Profil zuweisen
Wenn Sie einem Cloud Data Fusion-Namespace oder einer Cloud Data Fusion-Instanz Standardprofile zuweisen möchten, klicken Sie in Cloud Data Fusion Studio auf Systemadministrator > Konfiguration > Systemcompute-Profile. Wenn Sie die Standardeinstellung auswählen möchten, klicken Sie auf den Stern neben dem Profilnamen.
Optional: Mit den Mikrodiensten für die Einstellungen Standardprofile festlegen
- Wenn Sie das Standardprofil festlegen möchten, legen Sie eine Einstellung für die Cloud Data Fusion-Instanz mit dem Schlüssel „system.profile.name“ und dem Wert „
system:<profile-name>
“ fest. - Wenn Sie das Standardprofil für einen Namespace festlegen möchten, legen Sie eine Einstellung für den ausgewählten Namespace mit dem Schlüssel
system.profile.name
und dem Wert<scope>:<profile-name>
fest.
Compute-Profil für manuelle Ausführungen zuweisen
So weisen Sie ein Profil für manuelle Pipelineausführungen zu:
- Rufen Sie die Detailseite der Pipeline auf.
- Klicken Sie auf Konfigurieren > Compute-Konfiguration.
- Wählen Sie ein Profil aus und klicken Sie auf Speichern. Das ausgewählte Profil wird verwendet, wenn die Pipeline manuell ausgeführt wird.
Alternativ können Sie das Profil für manuelle Ausführungen mithilfe der Microservices für Einstellungen festlegen. Legen Sie dazu die Einstellung für die Entität DataPipelineWorkflow
mit dem Schlüssel system.profile.name
und dem Wert <scope>:<profile-name>
fest.
Zeitplan ein Compute-Profil zuweisen
Jedes Mal, wenn Sie einen Zeitplan für eine Pipeline erstellen, können Sie ihm ein Profil zuweisen. Wenn der Zeitplan eine Pipelineausführung auslöst, wird dieses Profil für die Ausführung verwendet. Das gilt für Zeitpläne und Zeitpläne, die von anderen Pipelines ausgelöst werden.
Konfiguration eines Compute-Profils überschreiben
Beim Erstellen eines Profils kann jede Konfigurationseinstellung durch Sperren unveränderlich gemacht werden. Wenn die Konfigurationseinstellungen jedoch nicht gesperrt sind, können sie zur Laufzeit überschrieben werden. So überschreiben Sie die Profilkonfiguration:
- Wählen Sie auf der Seite „Pipeline-Liste“ die bereitgestellte Pipeline aus, die Sie ausführen möchten.
- Klicken Sie auf der Seite „Pipeline-Details“ auf Konfigurieren.
- Wählen Sie ein Computing-Profil aus und klicken Sie auf Anpassen.
- Nehmen Sie die gewünschten Änderungen vor und klicken Sie auf Speichern.
Mithilfe von Laufzeitargumenten und Planungseigenschaften können Sie die Clustergröße und andere Einstellungen ändern.
- Wenn Sie das verwendete Profil überschreiben möchten, legen Sie ein Laufzeitargument mit dem Schlüssel
system.profile.name
und dem Wert<scope>:<profile-name>
fest. - Wenn Sie eine Profileigenschaft überschreiben möchten, legen Sie ein Laufzeitargument mit dem Schlüssel
system.profile.properties.<property-name>
und dem Wert fest, der dem Wert für diese Eigenschaft entspricht.
Wenn Sie beispielsweise numWorkerssetting
durch den Wert 10
überschreiben möchten, legen Sie ein Präferenz- oder Laufzeitargument mit dem Schlüssel system.profile.properties.numWorkers
und dem Wert 10
fest.
Nächste Schritte
- Weitere Informationen zu Bereitsteiler in Cloud Data Fusion
- Weitere Informationen zur Dataproc-Clusterkonfiguration