Escala Dataproc en clústeres de GKE

Para escalar un clúster de Dataproc en GKE, actualiza la configuración del escalador automático de los grupos de nodos asociados con los roles de controlador o ejecutor de Spark. Especificas los grupos de nodos y sus roles asociados de Dataproc en GKE cuando creas un clúster de Dataproc en GKE.

Configura el ajuste de escala automático del grupo de nodos

Puedes establecer los límites para el ajuste de escala automático del grupo de nodos de Dataproc en GKE cuando creas un clúster virtual de Dataproc en GKE. Si no se especifica, los grupos de nodos de Dataproc en GKE se escalan automáticamente con valores predeterminados (en la versión GA de Dataproc en GKE, los valores predeterminados se establecen en mínimo = 1 y máximo = 10, que están sujetos a cambios). Para obtener valores específicos de escalamiento automático mínimo y máximo del grupo de nodos, configúralos cuando crees tu clúster virtual de Dataproc en GKE.

Actualiza el ajuste de escala automático del grupo de nodos

Usa el siguiente comando gcloud container node-pools update de GKE para cambiar la configuración de escalamiento automático de un grupo de nodos de Dataproc en GKE.

gcloud container node-pools update NODE_POOL_NAME \
    --cluster=GKE_CLUSTER_NAME \
    --region=region \
    --enable-autoscaling \
    --min-nodes=min nodes (must be <= max-nodes) \
    --max-nodes=max nodes (must be >= min-nodes) \

Cómo funciona el ajuste de escala automático de Spark

  1. Cuando se envía un trabajo, el pod del controlador se programa para ejecutarse en el grupo de nodos asociado con el rol de controlador de Spark.
  2. El pod del controlador llama al programador de GKE para crear pods de ejecutor.
  3. Los pods del ejecutor se programan en el grupo de nodos asociado con el rol de ejecutor de Spark.
  4. Si los grupos de nodos tienen capacidad para los pods, estos comienzan a ejecutarse de inmediato. Si no hay suficiente capacidad, el escalador automático del clúster de GKE escala el grupo de nodos para proporcionar los recursos solicitados, hasta el límite especificado por el usuario. Cuando los grupos de nodos tienen capacidad en exceso, el escalador automático de clúster de GKE reduce el grupo de nodos hasta el límite especificado por el usuario.