Cómo usar selectores de clúster con flujos de trabajo

Como alternativa a la ejecución de un flujo de trabajo en un clúster administrado, puedes usar un selector de clúster con el fin de elegir un clúster existente para tu flujo de trabajo. Cuando finalice el flujo de trabajo, el clúster seleccionado no se borra.

Los selectores especifican una o más etiquetas de usuario de Cloud Dataproc. Los clústeres en la misma región que el flujo de trabajo cuyas etiquetas coinciden con todas las etiquetas del selector son aptos para ejecutar trabajos de flujo de trabajo. Si muchos clústeres coinciden con el selector, Cloud Dataproc elegirá el clúster con la mayor cantidad de memoria YARN libre.

Cómo agregar un selector de clúster a una plantilla

Puedes agregar un selector de clúster a una plantilla de flujo de trabajo con la herramienta de línea de comandos de gcloud o con la API de Cloud Dataproc.

Comando de gcloud

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --cluster-labels name=value[[,name=value]...]

API de REST

Consulta WorkflowTemplatePlacement.ClusterSelector. Ten en cuenta que este campo/estructura se proporciona como parte de una WorkflowTemplate completa, enviada con una solicitud workflowTemplates.create o workflowTemplates.update.

Console

Se agregará la asistencia para flujos de trabajo de Cloud Dataproc en Google Cloud Platform Console en una versión futura de Cloud Dataproc.

Cómo usar etiquetas aplicadas automáticamente

Puedes apuntar un selector de clúster a un clúster existente si usas una de las siguientes etiquetas de clúster aplicadas automáticamente:

  • goog-dataproc-cluster-name
  • goog-dataproc-cluster-uuid

Ejemplo:

gcloud dataproc workflow-templates set-cluster-selector template-id \
    --cluster-labels goog-dataproc-cluster-name=my-cluster

Cómo seleccionar de un grupo de clústeres

Puedes permitir que Cloud Dataproc elige un clúster de un grupo de clústeres. Los grupos de clústeres se pueden definir con etiquetas.

Ejemplo:

gcloud dataproc clusters create cluster-1 --labels cluster-pool=pool-1
gcloud dataproc clusters create cluster-2 --labels cluster-pool=pool-1
gcloud dataproc clusters create cluster-3 --labels cluster-pool=pool-2

Después de la creación del clúster…

gcloud dataproc workflow-templates create my-template
gcloud dataproc workflow-templates set-cluster-selector my-template \
  --cluster-labels cluster-pool=pool-1

Se ejecutará el flujo de trabajo en el cluster-1 o cluster-2, pero no en el cluster-3.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.