Statt einen Workflow in einem verwalteten Cluster auszuführen, können Sie einen Clusterselektor verwenden, der einen vorhandenen Cluster für Ihren Workflow auswählt. Dieser Cluster wird nach Abschließen des Workflows nicht gelöscht.
Selektoren geben ein oder mehrere Dataproc-Nutzerlabels an. Cluster, die sich in derselben Region wie der Workflow befinden und deren Labels mit allen Selektorlabels übereinstimmen, können Workflow-Jobs ausführen. Wenn mehrere Cluster mit dem Selektor übereinstimmen, wählt Dataproc den Cluster mit dem meisten freien YARN-Speicher aus.
Cluster-Selektoren zu einer Vorlage hinzufügen
Sie können der Workflow-Vorlage über die Google Cloud CLI oder die Dataproc API einen Cluster-Selektor hinzufügen.
gcloud-Befehl
gcloud dataproc workflow-templates set-cluster-selector template-id \ --region=region \ --cluster-labels=name=value[[,name=value]...]
REST API
Weitere Informationen finden Sie unter WorkflowTemplatePlacement.ClusterSelector. Dieses Feld wird als Bestandteil einer abgeschlossenen WorkflowTemplate bereitgestellt, die mit einer workflowTemplates.create- oder workflowTemplates.update-Anfrage gesendet wird.Console
Vorhandene Workflowvorlagen und instanziierte Workflows können in der Google Cloud Console auf der Dataproc-Seite Workflows aufgerufen werden.
Automatisch angewendete Labels verwenden
Mithilfe eines der folgenden automatisch angewendeten Clusterlabels können Sie einen Clusterselektor auf einen vorhandenen Cluster verweisen:
goog-dataproc-cluster-name
goog-dataproc-cluster-uuid
Example:
gcloud dataproc workflow-templates set-cluster-selector template-id \ --region=region \ --cluster-labels=goog-dataproc-cluster-name=my-cluster
Aus einem Clusterpool auswählen
Sie haben die Möglichkeit festzulegen, dass Dataproc einen Cluster aus einem Pool von Clustern auswählt. Die Clusterpools können mit Labels definiert werden.
Example:
gcloud dataproc clusters create cluster-1 --labels cluster-pool=pool-1 \ --region=region gcloud dataproc clusters create cluster-2 --labels cluster-pool=pool-1 \ --region=region gcloud dataproc clusters create cluster-3 --labels cluster-pool=pool-2 \ --region=region
Nach der Clustererstellung...
gcloud dataproc workflow-templates create my-template \ --region=region gcloud dataproc workflow-templates set-cluster-selector my-template \ --region=region \ --cluster-labels=cluster-pool=pool-1
…wird der Workflow entweder auf Cluster-1 oder Cluster-2 ausgeführt, nicht jedoch auf Cluster-3.