提交 Spark 工作负载时,Dataproc 无服务器 Spark 可以动态扩缩工作负载资源(例如执行程序的数量),从而高效地运行工作负载。Dataproc 无服务器自动扩缩是默认行为,它使用 Spark 动态资源分配来确定是否、如何和何时扩缩工作负载。
Spark 动态分配属性
下表列出了您在提交批处理工作负载以控制自动扩缩时可以设置的 Spark 动态分配属性(请参阅如何设置 Spark 属性)。
属性 | 说明 |
---|---|
spark.dynamicAllocation.enabled |
是否使用动态资源分配功能,该功能会根据工作负载按比例增加执行程序的数量。默认设置为 true (已启用动态资源分配)。将此值设置为 false 会停用工作负载的自动扩缩功能。默认值:true。 |
spark.dynamicAllocation.initialExecutors |
分配给工作负载的初始执行程序数量。工作负载启动后,自动扩缩功能可能会更改活跃执行程序的数量。
最小值为 2 ;最大值为 100 。默认值:2。 |
spark.dynamicAllocation.minExecutors |
要缩减工作负载的最小执行程序数。最小值为 2 。默认值:2。 |
spark.dynamicAllocation.maxExecutors |
将工作负载纵向扩容到的最大执行程序数。最大值为 1000 。默认值:1000。 |
监控指标
Spark 批量工作负载会根据 Spark 动态资源分配来生成指标。您可以使用这些指标监控 Spark 批处理工作负载。点击控制台的 Dataproc Batch 页面上的批处理 ID 以打开批量 Details 页面,该页面在 Monitoring 标签页下显示批处理工作负载的指标图表。
