Spark 作业调节提示

以下部分提供了一些提示，可帮助您微调 Dataproc Spark 应用。

使用临时集群

使用 Dataproc“临时”集群模型时，您需要为每个作业创建一个专用集群，并在作业完成后删除该集群。使用临时模型，您可以单独处理存储和计算，将作业输入和输出数据保存在 Cloud Storage 或 BigQuery 中，仅将集群用于计算和临时数据存储。

永久性集群弊端

使用临时单作业集群可以避免与使用共享和长时间运行的“永久性”集群相关的以下弊端和潜在问题：

单点故障：共享集群错误状态可能会导致所有作业失败，从而阻止整个数据流水线。调查错误并从中恢复可能需要数小时的时间。由于临时集群仅保留临时集群内状态，因此当发生错误时，可以快速删除并重新创建集群。
难以在 HDFS、MySQL 或本地文件系统中维护和迁移集群状态
作业之间会负面影响 SLO 的资源争用
内存压力导致服务守护程序无响应
日志和临时文件不断累积，可能会超出磁盘容量
由于集群可用区缺货而无法提升
不支持过时的集群映像版本。

临时集群优势

从积极方面来看，临时集群可让您执行以下操作：

使用不同的 Dataproc 虚拟机服务账号为不同的作业配置不同的 IAM 权限。
针对每个作业优化集群的硬件和软件配置，并根据需要更改集群配置。
升级新集群中的映像版本，以获取最新的安全补丁、bug 修复和优化。
在隔离式单作业集群上更快地排查问题。
仅为临时集群的运行时间付费（而非共享集群上作业之间的空闲时间），从而节省费用。

使用 Spark SQL

Spark SQL DataFrame API 是对 RDD API 的重大优化。如果您要与使用 RDD 的代码进行交互，请考虑先以 DataFrame 形式读取数据，然后再在代码中传递 RDD。在 Java 或 Scala 代码中，不妨将 Spark SQL Dataset API 用作 RDD 和 DataFrame 的超集。

使用 Apache Spark 3

Dataproc 2.0 安装了 Spark 3，其中包含以下功能和性能改进：

GPU 支持
能够读取二进制文件
性能改进
动态分区删减
自适应查询执行，可实时优化 Spark 作业

使用动态分配

Apache Spark 包含动态分配功能，可在集群中的工作器上扩缩 Spark 执行器的数量。借助此功能，即使集群扩容，作业也能使用完整的 Dataproc 集群。此功能在 Dataproc 上默认处于启用状态（spark.dynamicAllocation.enabled 设置为 true）。如需了解详情，请参阅 Spark 动态分配。

使用 Dataproc 自动扩缩

Dataproc 自动扩缩功能会在集群中动态添加 Dataproc 工作器以及从集群中动态移除 Dataproc 工作器，以帮助确保 Spark 作业具有快速完成所需的资源。

最佳实践是将自动扩缩政策配置为仅扩缩辅助工作器。

使用 Dataproc 增强的灵活性模式

如果集群具有抢占式虚拟机或自动扩缩政策，则在工作器完成向缩减器提供 shuffle 数据之前被抢占或移除时，可能会收到 FetchFailed 异常。此异常可能会导致任务重试和作业完成时间延长。

建议：使用 Dataproc 增强的灵活性模式，该模式不会在辅助工作器上存储中间 shuffle 数据，因此可以安全地抢占或缩容辅助工作器。

配置分区和 shuffle

Spark 会将数据存储在集群上的临时分区中。如果您的应用对 DataFrame 进行分组或联接，则会根据分组和低级别配置将数据 shuffle 到新分区。

数据分区可显著影响应用性能：太少的分区会限制作业并行性和集群资源利用率；太多的分区会因为需要进行额外的分区处理和重排而降低作业速度。

配置分区

以下属性用于控制分区的数量和大小：

spark.sql.files.maxPartitionBytes：从 Cloud Storage 读入数据时分区的大小上限。默认值为 128 MB，对于处理数据量不超过 100 TB 的大多数应用来说，这个大小足够大。
spark.sql.shuffle.partitions：执行重排后的分区数量。对于 2.2 及更高的映像版本集群，默认值为 1000。建议：请将此属性设置为集群中的 vCPU 数量的 3 倍。
spark.default.parallelism：执行需要 shuffle 的 RDD 转换（例如 join、reduceByKey 和 parallelize）后返回的分区数。默认值是集群中 vCPU 的总数。在 Spark 作业中使用 RDD 时，您可以将此数量设置为 vCPU 的 3 倍
使用自动扩缩功能时，请将这些数量设置为最大集群核心总数的 3 倍，如自动扩缩政策的工作器配置中 maxInstances 所定义的那样。

限制文件数量

Spark 读取大量小型文件时会出现性能下降。以较大的文件大小存储数据，例如 256MB–512MB 的文件大小范围。同样，请限制输出文件的数量（如需强制执行 shuffle，请参阅避免不必要的 shuffle）。

配置自适应查询执行 (Spark 3)

自适应查询执行（在 Dataproc 映像版本 2.0 中默认处于启用状态）可提升 Spark 作业性能，包括：

虽然默认配置设置适用于大多数用例，但将 spark.sql.adaptive.advisoryPartitionSizeInBytes 设置为 spark.sqlfiles.maxPartitionBytes（默认值为 128 MB）会很有帮助。

避免不必要的重排

Spark 允许用户手动触发重排以使用 repartition 函数重新平衡其数据。重排的费用很高，因此应谨慎重排数据。适当设置分区配置应该足以让 Spark 自动对您的数据进行分区。

例外情况：将列分区数据写入 Cloud Storage 时，对特定列进行重新分区可以避免写入许多小型文件，从而缩短写入时间。

df.repartition("col_name").write().partitionBy("col_name").save("gs://...")

以 Parquet 或 Avro 格式存储数据

Spark SQL 默认在 Snappy 压缩的 Parquet 文件中读取和写入数据。Parquet 采用高效的列式文件格式，可让 Spark 仅读取执行应用所需的数据。在处理大型数据集时，这是一个重要的优势。其他列式格式（例如 Apache ORC）的效果也很好。

对于非列式数据，Apache Avro 提供了一种高效的二进制行文件格式。虽然 Avro 通常比 Parquet 更慢，但其性能优于基于文本的格式，例如 CSV 或 JSON。

优化磁盘大小

永久性磁盘的吞吐量会随着磁盘大小而扩缩，这可能会影响 Spark 作业的性能，因为作业会将元数据和重排数据写入磁盘。使用标准永久性磁盘时，每个工作器的磁盘大小应至少为 1 TB（请参阅永久性磁盘大小的性能）。

如需在Google Cloud 控制台中监控工作器磁盘吞吐量，请执行以下操作：

在集群页面上，点击集群名称。
点击“虚拟机实例”标签页。
点击任意工作器名称。
点击“监控”标签页，然后向下滚动到“磁盘吞吐量”以查看工作器吞吐量。

磁盘注意事项

无法从永久性存储中受益的临时 Dataproc 集群可以使用本地 SSD。本地 SSD 以物理方式挂接到集群，并提供比永久性磁盘更高的吞吐量（请参阅性能表）。本地 SSD 以 375 GB 的固定大小提供，但您可以添加多个 SSD 以提高性能。

集群关停后，本地 SSD 不会保留数据。如果您需要永久性存储，则可以使用 SSD 永久性磁盘，它们可针对其大小提供比标准永久性磁盘更高的吞吐量。如果分区大小小于 8 KB，则 SSD 永久性磁盘也是一个不错的选择（不过，请避免使用小型分区）。

将 GPU 挂接到集群

Spark 3 支持 GPU。将 GPU 与 RAPIDS 初始化操作搭配使用，以便使用 RAPIDS SQL 加速器加快 Spark 作业的速度。GPU 驱动程序初始化操作用于配置具有 GPU 的集群。

常见的作业故障和修复方案

内存不足

示例：

“执行器丢失”
“java.lang.OutOfMemoryError：已超出 GC 开销限制”
“由于超出内存限制，YARN 已终止容器”

可能的修复方案：

如果使用 PySpark，请提高 spark.executor.memoryOverhead 并降低 spark.executor.memory。
使用高内存机器类型。
使用较小的分区。

重排提取失败

示例：

“FetchFailedException”（Spark 错误）
“未能连接到…”（Spark 错误）
“无法提取”（MapReduce 错误）

通常是由于过早移除仍有要处理的 shuffle 数据的工作器而导致的。

可能的原因和修复方案：

自动扩缩器收回了抢占式工作器虚拟机，或移除了非抢占式工作器虚拟机。解决方案：使用增强的灵活性模式，以便可以安全地抢占或扩缩辅助工作器。
执行器或映射器因 OutOfMemory 错误而崩溃。解决方案：增加执行器或映射器的内存。
Spark shuffle 服务可能过载。解决方案：减少作业分区的数量。

YARN 节点运行状况不佳

示例（来自 YARN 日志）：

...reported UNHEALTHY with details: 1/1 local-dirs usable space is below
configured utilization percentage/no more usable space
[ /hadoop/yarn/nm-local-dir : used space above threshold of 90.0% ]

通常与用于 shuffle 数据的磁盘空间不足有关。可通过查看日志文件进行诊断：

在 Google Cloud 控制台中打开项目的集群页面，然后点击集群的名称。
点击“查看日志”。
按 hadoop-yarn-nodemanager 过滤日志。
搜索“UNHEALTHY”。

可能的修复方案：

用户缓存存储在 yarn-site.xml file 中的 yarn.nodemanager.local-dirs 属性指定的目录中。此文件位于 /etc/hadoop/conf/yarn-site.xml。您可以检查 /hadoop/yarn/nm-local-dir 路径中的可用空间，并通过删除 /hadoop/yarn/nm-local-dir/usercache 用户缓存文件夹来释放空间。
如果日志报告“UNHEALTHY”状态，请使用更大的磁盘空间重新创建集群，这将提高吞吐量上限。

作业因驱动程序内存不足而失败

在集群模式下运行作业时，如果工作器节点的内存大小小于作业所需的内存大小，作业会失败。

来自驱动程序日志的示例：

'Exception in thread "main" java.lang.IllegalArgumentException:
Required AM memory (32768+3276 MB) is above the max threshold (12288 MB) of this cluster!
Please check the values of 'yarn.scheduler.maximum -allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb'.'

可能的修复方案：

将 spark:spark.driver.memory 设置为小于 yarn:yarn.scheduler.maximum-allocation-mb。
为主节点和工作器节点使用相同的机器类型。

后续步骤

详细了解 Spark 性能调优。