Trabajadores secundarios de Dataproc

Además de usar las VM estándar de Compute Engine como trabajadores de Dataproc (llamados trabajadores "principales"), los clústeres de Dataproc pueden usar trabajadores secondary.

Las siguientes características se aplican a todos los trabajadores secundarios en un clúster de Dataproc:

Solo procesamiento: Los trabajadores secundarios no almacenan datos. Solo funcionan como nodos de procesamiento. Por lo tanto, puedes usar trabajadores secundarios para escalar el procesamiento sin escalar el almacenamiento.
No hay clústeres secundarios solo de trabajador: Tu clúster debe tener trabajadores primarios. Si creas un clúster y no especificas la cantidad de trabajadores primarios, Dataproc agrega dos trabajadores primarios al clúster.
Tipo de máquina: De forma predeterminada, los trabajadores secundarios usan el tipo de máquina de los trabajadores principales del clúster. Por ejemplo, si creas un clúster con trabajadores primarios que usan tipos de máquina n1-standard-4, todos los trabajadores secundarios agregados al clúster también usarán máquinas n1-standard-4.

En lugar de usar el tipo de máquina de trabajador principal predeterminado para los trabajadores secundarios, puedes especificar una o más listas clasificadas de tipos de máquinas para los trabajadores secundarios. Consulta VM flexibles de Dataproc para obtener más información.
Tamaño de disco persistente: De forma predeterminada, los trabajadores secundarios se crean con el tamaño del disco de arranque del trabajador principal o con un tamaño de menos de 100 GB. Este espacio de disco se usa para el almacenamiento en caché local de datos y no está disponible a través de HDFS. Puedes anular el tamaño de disco predeterminado con el comando gcloud dataproc clusters create --secondary-worker-boot-disk-size cuando crees el clúster. Puedes especificar esta marca incluso si el clúster no tendrá trabajadores secundarios cuando se cree.
Creación asíncrona: cuando agregas trabajadores secundarios mediante la creación o el escalamiento vertical de un clúster, es posible que los trabajadores secundarios no se aprovisionen en el momento en que finaliza la operación de creación o actualización. Esto se debe a que Dataproc administra los trabajadores secundarios mediante grupos de instancias administrados (MIG), que crean VM de forma asíncrona en cuanto se pueden aprovisionar (consulta Verifica el estado de las instancias administradas).

Trabajadoressecundarios interrumpibles y no interrumpibles

Existen tres tipos de trabajadores secundarios: VMs puntuales, VM interrumpibles estándar y VMs no interrumpibles. Si especificas trabajadores secundarios para tu clúster, deben ser del mismo tipo. El tipo de trabajador secundario predeterminado de Dataproc es la VM interrumpible estándar.

Ejemplo: Si seleccionas tres trabajadores secundarios cuando creas un clúster, puedes especificar que los tres serán VMs Spot, o los tres serán VMs interrumpibles (estándar), o los tres serán VMs no interrumpibles, pero no puedes especificar que cada uno será de un tipo diferente.

Una VM puntual es el tipo más reciente de VM interrumpible de Compute Engine. Comparte el modelo de precios de menor costo de las VM interrumpibles estándar, pero a diferencia de la VM interrumpible estándar con una vida útil máxima de 24 horas, la VM Spot no tiene una vida útil máxima. Los trabajadores de VM interrumpible y puntuales se reclaman y se quitan de un clúster de Dataproc si Google Cloud los requiere para otras tareas.

Trabajadores interrumpibles

Aunque la posible eliminación de trabajadores interrumpibles puede afectar la estabilidad del trabajo, puedes decidir usar instancias interrumpibles para reducir los costos de procesamiento por hora para el procesamiento de datos no críticos o para crear clústeres muy grandes con un costo total más bajo (puedes usar la calculadora de precios de Google Cloud para estimar los costos).
Para obtener mejores resultados, la cantidad de trabajadores interrumpibles en tu clúster debe ser inferior al 50% de la cantidad total de todos los trabajadores (los principales y todos los secundarios) en el clúster.
Cuando usas trabajadores interrumpibles, es probable que tus trabajos experimenten una mayor cantidad de fallas de tareas transitorias de un solo trabajador en comparación con los trabajos que se ejecutan en trabajadores no interrumpibles. Para aumentar la tolerancia del trabajo a errores de tareas de bajo nivel, puedes establecer valores de propiedad del clúster similares a los valores de propiedad predeterminados que se usan con los clústeres con ajuste de escala automático para aumentar la cantidad máxima de reintentos de tareas y evitar fallas en los trabajos.

Considera usar el Modo de flexibilidad mejorada si usas VM interrumpibles con Spark.
Una consideración para ahorrar costos: el uso de VM interrumpibles no siempre ahorra costos, ya que las interrupciones pueden provocar una ejecución de trabajos más larga y generar costos de trabajo más altos. Aunque el uso del Modo de flexibilidad mejorada (EFM) con VM interrumpibles puede ayudar a mitigar este resultado, el ahorro general de costos de las VM interrumpibles variará según el caso de uso. Por lo general, los trabajos de corta duración son más adecuados para el uso de VM interrumpible, ya que la probabilidad de interrupciones durante la ejecución del trabajo será menor. Prueba diferentes opciones de trabajo, como VM interrumpibles y sin VM interrumpibles con EFM, para estimar los costos y llegar a la mejor solución.

Trabajadores no interrumpibles

Puedes crear un clúster con trabajadores secundarios no interrumpibles para escalar el procesamiento sin sacrificar la estabilidad del trabajo. Para ello, especifica “no interrumpible” como el tipo de trabajador secundario.

Usa trabajadores secundarios

Puedes especificar la cantidad y el tipo de trabajadores secundarios cuando creas un clúster mediante la consola de Google Cloud, gcloud CLI o la API de Dataproc.

Los trabajadores secundarios deben ser del mismo tipo.
Puedes actualizar tu clúster después de crearlo para cambiar el número de trabajadores secundarios en tu clúster, pero no el tipo.
Las actualizaciones de etiquetas se propagan a todos los trabajadores secundarios interrumpibles en un plazo de 24 horas. Las actualizaciones de etiquetas no se propagan a los trabajadores secundarios no interrumpibles existentes. Las actualizaciones de etiquetas se propagan a todos los trabajadores que se agregan a un clúster después de actualizar las etiquetas. Por ejemplo, si escalas verticalmente el clúster, todos los trabajadores principales y secundarios nuevos tendrán las etiquetas nuevas.

Si planeas agregar trabajadores secundarios a un clúster más adelante. Puedes especificar 0 trabajadores secundarios (ejemplo de la marca del comando de gcloud: --num-secondary-workers=0) cuando creas el clúster y, luego, actualizarlo para especificar un número positivo y el tipo de trabajadores secundarios. Si planeas actualizar tu clúster más adelante para incluir trabajadores secundarios, debes especificar el “secondary-worker-type” cuando crees el clúster.

Console

Puedes especificar la cantidad de trabajadores secundarios cuando creas un clúster de Dataproc desde la consola de Google Cloud. Después de crear un clúster, puedes editar la configuración del clúster desde la consola de Google Cloud para agregar y quitar trabajadores secundarios.

Crea un clúster con trabajadores secundarios

Puedes configurar la cantidad y el tipo de trabajadores secundarios que se aplicarán a un clúster nuevo desde la sección Nodos trabajadores secundarios del panel Configurar nodos en la página Crear un clúster de Dataproc de la consola de Google Cloud. Especifica la cantidad y el tipo de trabajadores secundarios en los campos de nodos trabajadores secundarios y prioridad, respectivamente.

Actualiza un clúster con instancias secundarias

Para actualizar la cantidad de trabajadores secundarios en un clúster, haz clic en el nombre del clúster en la página Clústeres de la consola de Google Cloud. En la página Detalles del clúster. Haz clic en la pestaña CONFIGURACIÓN, luego haz clic en EDITAR y actualiza el número en el campo de nodos trabajadores secundarios.

Quita todas las instancias interrumpibles de un clúster

Para quitar todos los trabajadores secundarios de un clúster, actualiza la configuración del clúster como se explicó anteriormente y especifica 0 en el campo Nodos trabajadores secundarios.

Comando de gcloud

Usa el comando gcloud dataproc clusters create para agregar trabajadores secundarios a un clúster cuando se crea uno. Después de crear un clúster, puedes agregar o quitar trabajadores secundarios del clúster o quitarlos con el comando gcloud dataproc clusters update (se puede actualizar la cantidad, pero no el tipo de trabajadores secundarios).

Crea un clúster con trabajadores secundarios

Para crear un clúster con trabajadores secundarios, usa el comando gcloud dataproc clusters create con el argumento --num-secondary-workers. Ten en cuenta que los trabajadores secundarios son VM interrumpibles estándar de forma predeterminada. Puedes especificar trabajadores secundarios no interrumpibles cuando creas un clúster mediante la configuración de --secondary-worker-type=non-preemptible (la propiedad dataproc:secondary-workers.is-preemptible.override ya no se usa para especificar el tipo de trabajador secundario).

Ejemplo 1

El siguiente comando crea “cluster1” con dos trabajadores secundarios interrumpibles (de tipo predeterminado) estándar.

gcloud dataproc clusters create cluster1 \
    --num-secondary-workers=2 \
    --region=us-central1

Ejemplo 2

En el siguiente comando, se usa la marca secondary-worker-type para crear “cluster2” con dos trabajadores secundarios Spot (interrumpibles).

gcloud dataproc clusters create cluster2 \
    --num-secondary-workers=2 \
    --secondary-worker-type=spot \
    --region=us-central1

Ejemplo 3

En el siguiente comando, se usa la marca secondary-worker-type para crear “cluster3” con dos trabajadores secundarios no interrumpibles.

gcloud dataproc clusters create cluster3 \
    --num-secondary-workers=2 \
    --secondary-worker-type=non-preemptible \
    --region=us-central1

Actualiza un clúster con trabajadores secundarios

Para actualizar un clúster y agregar o quitar trabajadores secundarios, usa el comando gcloud dataproc clusters update con el argumento --num-secondary-workers.

Ejemplo

El siguiente comando actualiza "example-cluster" para usar cuatro trabajadores secundarios (del tipo o tipo predeterminado que se especificó cuando creaste el clúster).

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=4 \
    --region=us-central1

Quita todas las instancias interrumpibles de un clúster

Para quitar todos los trabajadores secundarios de un clúster, usa el comando gcloud dataproc clusters update con --num-secondary-workers configurado como 0.

Ejemplo

El siguiente comando quita todos los trabajadores secundarios de “example-cluster”.

gcloud dataproc clusters update example-cluster \
    --num-secondary-workers=0 \
    --region=us-central1

API de REST

Crea un clúster con trabajadores secundarios

Usa la API de clusters.create de Dataproc y agrega trabajadores secundarios a un clúster cuando este se crea. Ten en cuenta que los trabajadores secundarios son VM interrumpibles estándar de forma predeterminada.

Ejemplo 1

La siguiente solicitud POST crea un “cluster1” con dos trabajadores de VM interrumpibles estándar (tipo predeterminado).


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster1",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2
    }
  }
}

Ejemplo 2

La siguiente solicitud POST crea un “cluster2” con dos trabajadores de VM Spot (interrumpibles).


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster2",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "SPOT"
    }
  }
}

Ejemplo 3

La siguiente solicitud POST crea “cluster3” con dos trabajadores secundarios no interrumpibles.


POST https://dataproc.googleapis.com/v1/projects/project-id/regions/region/clusters

{
  "clusterName": "cluster3",
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 2,
      "preemptibility": "NON_PREEMPTIBLE"
    }
  }
}

Actualiza un clúster con trabajadores secundarios

Usa la API de clusters.patch de Dataproc para agregar y quitar trabajadores secundarios.

Ejemplo

La siguiente solicitud PATCH actualiza un clúster para que tenga cuatro trabajadores secundarios (del tipo o tipo predeterminado que se especificó cuando creaste el clúster).


PATCH /v1/projects/project-id/regions/region/clusters/cluster-name?updateMask=config.secondary_worker_config.num_instances
{
  "config": {
    "secondaryWorkerConfig": {
      "numInstances": 4
    }
  }
}

Soluciona problemas de trabajadores secundarios

Problemas de permisos de la cuenta de servicio: Los trabajadores secundarios se crean a través del grupo de instancias administrado y Compute Engine usa la cuenta de servicio del agente de servicio de API de Google de tu proyecto para realizar operaciones de grupo de instancias administrados. El nombre de esta cuenta de servicio tiene el siguiente formato: project-id@cloudservices.gserviceaccount.com.

Si hay un problema de permisos con esta cuenta de servicio, los registros de Dataproc no informarán el error en la creación de trabajadores secundarios, pero aparecerán en la pestaña INSTANCIAS de VM de la página Detalles del clúster en la consola de Google Cloud sin una marca de verificación verde (abre la página Clústeres de Dataproc y, luego, haz clic en el nombre del clúster para abrir la página Detalles del clúster del clúster).

Problemas de permisos de grupos de instancias administrados: Para verificar si hay un problema con los permisos de grupos de instancias administrados, consulta los registros en el Explorador de registros del tipo de recurso del “Grupo de instancias de Google Compute Engine” y filtra por el ID del grupo de instancias correspondiente. El filtro de ID del grupo de instancias mostrará el nombre del grupo en el formato dataproc-CLUSTER NAME-sw, y el ID del grupo de instancias se propagará de forma automática en la consulta de registro. En lugar de usar los filtros desplegables, también puedes aplicar un filtro de registro para resource.type="gce_instance_group" y resource.labels.instance_group_name="dataproc-CLUSTER NAME-sw".
Problemas de permisos de imagen personalizada: Si las VM del clúster de Dataproc se crean con imágenes personalizadas recuperadas de otro proyecto, la función Compute Image User debe asignarse a la cuenta de servicio project-id@cloudservices.gserviceaccount.com de tu proyecto (consulta Otorga acceso a las imágenes a un grupo de instancias administrado ). Si no se asignó la función correcta, aparecerá este mensaje de error en los registros: Required 'compute.images.useReadOnly' permission for 'projects/[IMAGE PROJECT]/global/images/[IMAGE NAME]