Dataproc Serverless for Spark 的自动扩缩

提交 Spark 工作负载时,Dataproc 无服务器 Spark 可以动态扩缩工作负载资源(例如执行程序的数量),从而高效地运行工作负载。Dataproc 无服务器自动扩缩是默认行为,它使用 Spark 动态资源分配来确定是否、如何和何时扩缩工作负载。

Spark 动态分配属性

下表列出了您在提交批处理工作负载以控制自动扩缩时可以设置的 Spark 动态分配属性(请参阅如何设置 Spark 属性)。

属性 说明
spark.dynamicAllocation.enabled 是否使用动态资源分配功能,该功能会根据工作负载按比例增加执行程序的数量。默认设置为 true(已启用动态资源分配)。将此值设置为 false 会停用工作负载的自动扩缩功能。默认值:true。
spark.dynamicAllocation.initialExecutors 分配给工作负载的初始执行程序数量。工作负载启动后,自动扩缩功能可能会更改活跃执行程序的数量。 最小值为 2;最大值为 100。默认值:2。
spark.dynamicAllocation.minExecutors 要缩减工作负载的最小执行程序数。最小值为 2。默认值:2。
spark.dynamicAllocation.maxExecutors 将工作负载纵向扩容到的最大执行程序数。最大值为 1000。默认值:1000。
:

监控指标

Spark 批量工作负载会根据 Spark 动态资源分配来生成指标。您可以使用这些指标监控 Spark 批处理工作负载。点击控制台的 Dataproc Batch 页面上的批处理 ID 以打开批量 Details 页面,该页面在 Monitoring 标签页下显示批处理工作负载的指标图表。