Ein Compute-Profil gibt an, wie und wo Pipelines ausgeführt werden. Es enthält alle Informationen, die zum Einrichten und Löschen der Ausführungsumgebung einer Pipeline. Ein Compute-Profil gibt ein provisioner und die Konfigurationseinstellungen für diesen Bereitsteller an.
Jedes Compute-Profil hat einen Bereich: system oder user. Sie können System-Rechenprofile für alle darunter liegenden Namespaces verwenden. Compute-Profile von Nutzern sind in einem und nur Pipelines in diesem Namespace können Compute-Profile von Nutzern verwenden. Compute-Profile können Batchpipelines zugewiesen werden. Wenn einer Pipeline ein Compute-Profil zugewiesen wird, wird der im Profil angegebene Bereitsteller verwendet, um einen Cluster zu erstellen, in dem die Pipeline ausgeführt wird.
Ein Administrator kann beispielsweise kleine, mittlere und große Compute-Profile erstellen. Er konfiguriert jedes Profil mit den Google Cloud-Anmeldedaten, die zum Erstellen und Löschen von Dataproc-Clustern im Google Cloud-Konto des Unternehmens erforderlich sind.
- Das kleine Profil ist so konfiguriert, dass ein Cluster mit 5 Knoten erstellt wird.
- Das mittlere Profil ist für die Erstellung eines Clusters mit 20 Knoten konfiguriert.
- Das große Profil ist so konfiguriert, dass ein Cluster mit 50 Knoten erstellt wird.
Der Administrator weist das kleine Profil Pipelines zu, die geplant sind, stündlich mit kleinen Datenmengen ausgeführt. Er weist das große Profil Pipelines zu, die täglich mit einer großen Datenmenge ausgeführt werden sollen.
Standard-Rechenprofil
In Cloud Data Fusion wird standardmäßig „Autoscale“ als Compute-Profil verwendet. Das Schätzen der richtigen Anzahl von Cluster-Workern (Knoten) für eine Arbeitslast ist schwierig und eine einzelne Clustergröße für eine gesamte Pipeline ist oft nicht ideal. Dataproc-Autoscaling bietet einen Mechanismus zur Automatisierung von Clustern Ressourcenverwaltung und aktiviert das VM-Autoscaling von Cluster-Workern. Weitere Informationen finden Sie unter Autoscaling.
Auf der Seite Compute-Konfiguration, auf der eine Liste der Profile angezeigt wird, gibt es die Spalte Kerne insgesamt mit der maximalen Anzahl von vCPUs, auf die das Profil skaliert werden kann, z. B. Up to 84
.
Computing-Profile für System und Nutzer
Ein Compute-Profil gibt an, welcher Bereitsteiler beim Erstellen eines Clusters verwendet werden soll, und gibt die Clusterkonfiguration an. Außerdem wird die Bereitstellungskonfiguration angegeben, die beim Erstellen eines Clusters verwendet werden soll.
- Rufen Sie zum Erstellen eines System-Compute-Profils die Seite Systemadmin in Cloud Data Fusion Studio. Auf dieser Seite werden alle Computing-Profile des Systems aufgelistet und Sie können neue Computing-Profile des Systems erstellen.
- Wenn Sie ein Nutzer-Rechenprofil erstellen möchten, rufen Sie in Cloud Data Fusion Studio die Seite Verwaltung des Namespace auf und wählen Sie den Namespace aus, in dem das Profil erstellt werden soll. Dann können Sie ein Profil erstellen, existiert nur innerhalb dieses Namespace.
Compute-Profilzuweisung
Sie können Batchpipelines Compute-Profile auf folgende Arten zuweisen:
- Weisen Sie der Cloud Data Fusion-Instanz ein Standardprofil zu.
- Weisen Sie einem bestimmten Namespace ein Standardprofil zu.
- Weisen Sie einer Batchpipeline ein Profil zu, das für manuell gestartete Ausführungen verwendet werden soll.
- Weisen Sie einem Pipelinezeitplan ein Profil zu.
Wenn im Zeitplan ein Profil festgelegt ist, das eine Ausführung auslöst, oder wenn Sie es manuell ausführen und dieser Pipeline ist ein Profil zugewiesen. Cloud Data Fusion verwendet dieses Compute-Profil.
Wenn kein Profil festgelegt ist, verwendet Cloud Data Fusion das Standardprofil für die -Namespace auf sie zugegriffen werden. Wenn für den Namespace kein Standardprofil festgelegt ist,
In Cloud Data Fusion wird das Standardprofil des Systems verwendet. Wenn kein Systemstandard festgelegt ist, wird das integrierte Profil verwendet.
Standard-Computing-Profil zuweisen
So weisen Sie einem Cloud Data Fusion-Namespace oder einer Cloud Data Fusion-Instanz Standardprofile zu: Rufen Sie Cloud Data Fusion Studio auf und klicken Sie auf Systemadmin > Konfiguration > Computing-Profile des Systems. Wenn Sie die Standardeinstellung auswählen möchten, klicken Sie auf den Stern neben dem Profilnamen.
Optional: Standardprofile unter „Einstellungen für Mikrodienste“ festlegen
- Legen Sie eine Einstellung für Cloud Data Fusion fest, um das Standardprofil festzulegen.
Instanz mit dem Schlüssel system.profile.name und dem Wert
system:<profile-name>
. - Um das Standardprofil für einen Namespace festzulegen, legen Sie eine Einstellung für das
Ausgewählter Namespace mit dem Schlüssel
system.profile.name
und dem Wert<scope>:<profile-name>
.
Compute-Profil für manuelle Ausführungen zuweisen
So weisen Sie ein Profil für manuelle Pipelineausführungen zu:
- Rufen Sie die Detailseite der Pipeline auf.
- Klicken Sie auf Konfigurieren > Compute-Konfiguration
- Wählen Sie ein Profil aus und klicken Sie auf Speichern. Das ausgewählte Profil wird verwendet wenn die Pipeline manuell ausgeführt wird.
Alternativ können Sie mit den Mikrodiensten "Einstellungen" das Profil für
Manuelle Ausführungen durch Festlegen der Einstellung für die Entität DataPipelineWorkflow
mit Schlüssel
system.profile.name
und den Wert <scope>:<profile-name>
.
Einem Zeitplan ein Compute-Profil zuweisen
Jedes Mal, wenn Sie einen Zeitplan für eine Pipeline erstellen, können Sie ihm ein Profil zuweisen. Immer wenn der Zeitplan eine Pipelineausführung auslöst, verwendet er dieses Profil für die ausführen. Das gilt für Zeitpläne und Zeitpläne, die von anderen Pipelines ausgelöst werden.
Konfiguration eines Compute-Profils überschreiben
Beim Erstellen eines Profils kann jede Konfigurationseinstellung durch Sperren unveränderlich gemacht werden. Wenn die Konfigurationseinstellungen jedoch nicht gesperrt sind, können sie zur Laufzeit überschrieben werden. So überschreiben Sie die Profilkonfiguration:
- Wählen Sie auf der Seite „Pipeline-Liste“ die bereitgestellte Pipeline aus, die Sie ausführen möchten.
- Klicken Sie auf der Seite „Pipelinedetails“ auf Konfigurieren.
- Wählen Sie ein Computing-Profil aus und klicken Sie auf Anpassen.
- Nehmen Sie die gewünschten Änderungen vor und klicken Sie auf Speichern.
Sie können Laufzeitargumente und Zeitplanattribute verwenden, um den Cluster zu ändern und andere Einstellungen vornehmen.
- Wenn Sie das verwendete Profil überschreiben möchten, legen Sie ein Laufzeitargument mit dem Schlüssel
system.profile.name
und dem Wert<scope>:<profile-name>
fest. - Legen Sie ein Laufzeitargument mit einem Schlüssel fest, um eine Profileigenschaft zu überschreiben
system.profile.properties.<property-name>
und Wert gleich dem Wert für für diese Property.
Wenn Sie beispielsweise numWorkerssetting
durch den Wert 10
überschreiben möchten, legen Sie ein Präferenz- oder Laufzeitargument mit dem Schlüssel system.profile.properties.numWorkers
und dem Wert 10
fest.
Nächste Schritte
- Weitere Informationen zu Bereitsteiler in Cloud Data Fusion
- Weitere Informationen zur Dataproc-Clusterkonfiguration