Dataproc Serverless para el ajuste de escala automático de Spark

Cuando envías tu carga de trabajo de Spark, Dataproc Serverless para Spark puede escalar de forma dinámica los recursos de la carga de trabajo, como la cantidad de ejecutores, para ejecutar tu carga de trabajo de manera eficiente. El ajuste de escala automático sin servidores de Dataproc es el comportamiento predeterminado y usa la asignación de recursos dinámica de Spark a fin de determinar si se debe escalar la carga de trabajo, cómo y cuándo hacerlo.

Propiedades de asignación dinámica de Spark

En la siguiente tabla, se enumeran las propiedades de asignación dinámica de Spark que puedes configurar cuando envías una carga de trabajo por lotes para controlar el ajuste de escala automático (consulta cómo configurar las propiedades de Spark).

Propiedad Descripción
spark.dynamicAllocation.enabled Indica si se debe usar la asignación dinámica de recursos, que aumenta o reduce la cantidad de ejecutores según la carga de trabajo. La configuración predeterminada es true (asignación de recursos dinámica habilitada). Establecer el valor en false inhabilita el ajuste de escala automático para la carga de trabajo. Valor predeterminado: true (verdadero).
spark.dynamicAllocation.initialExecutors La cantidad inicial de ejecutores asignados a la carga de trabajo. Después de que se inicia la carga de trabajo, el ajuste de escala automático puede cambiar la cantidad de ejecutores activos. El valor mínimo es 2; el valor máximo es 100. Configuración predeterminada: 2.
spark.dynamicAllocation.minExecutors La cantidad mínima de ejecutores para reducir la carga de trabajo. El valor mínimo es 2. Configuración predeterminada: 2.
spark.dynamicAllocation.maxExecutors La cantidad máxima de ejecutores para escalar la carga de trabajo. El valor máximo es 1000. Valor predeterminado: 1,000
:

Métricas de supervisión

Las cargas de trabajo por lotes de Spark generan métricas basadas en la asignación dinámica de recursos de Spark. Puedes usar estas métricas para supervisar las cargas de trabajo por lotes de Spark. Haz clic en un ID de lote en la página Lotes de Dataproc en la consola para abrir la página Detalles del lote, que muestra un gráfico de métricas para la carga de trabajo por lotes en la pestaña Monitoring.