此页面由 Cloud Translation API 翻译。

排查虚拟机内存不足错误

本页介绍了 Compute Engine 虚拟机上 Dataproc 的内存不足 (OOM) 错误，并说明了您可以采取哪些步骤来排查和解决 OOM 错误。

OOM 错误的影响

当 Dataproc on Compute Engine 虚拟机遇到内存不足 (OOM) 错误时，会产生以下影响：

主虚拟机和工作器虚拟机会冻结一段时间。
主虚拟机 OOM 错误会导致作业失败并出现“未获取任务”错误。
工作器虚拟机 OOM 错误会导致 YARN HDFS 上节点丢失，从而延迟 Dataproc 作业执行。

YARN 内存控件

Apache YARN 提供以下类型的内存控制：

基于轮询（旧版）
严格
Elastic

默认情况下，Dataproc 不会设置 yarn.nodemanager.resource.memory.enabled 以启用 YARN 内存控制，原因如下：

如果容器大小配置不正确，严格的内存控制可能会导致在有足够内存的情况下终止容器。
弹性内存控制要求可能会对作业执行产生不利影响。
当进程大量消耗内存时，YARN 内存控制功能可能会无法防止 OOM 错误。

Dataproc 内存保护

当 Dataproc 集群虚拟机面临内存压力时，Dataproc 内存保护功能会终止进程或容器，直到内存不足 (OOM) 情况消除。

Dataproc 在以下 Dataproc on Compute Engine 映像版本中为以下集群节点提供内存保护：

角色	1.5	2.0	2.1	2.2
主虚拟机	1.5.74+	2.0.48+	全部	全部
工作器虚拟机	不可用	2.0.76+	2.1.24+	全部
驱动程序池虚拟机	不可用	2.0.76+	2.1.24+	全部

识别和确认内存保护终止

您可以使用以下信息来识别和确认因内存压力而导致的作业终止。

进程终止

Dataproc 内存保护终止的进程会以代码 137 或 143 退出。
当 Dataproc 因内存压力而终止进程时，可能会发生以下操作或情况：
- Dataproc 会递增 dataproc.googleapis.com/node/problem_count 累计指标，并将 reason 设置为 ProcessKilledDueToMemoryPressure。请参阅 Dataproc 资源指标收集。
- Dataproc 会写入一条消息为 "A process is killed due to memory pressure: process name 的 google.dataproc.oom-killer 日志。如需查看这些消息，请启用 Logging，然后使用以下日志过滤条件：
```
resource.type="cloud_dataproc_cluster"
resource.labels.cluster_name="CLUSTER_NAME"
resource.labels.cluster_uuid="CLUSTER_UUID"
jsonPayload.message:"A process is killed due to memory pressure:"
```

主节点或主控节点池作业终止

当 Dataproc 主实例节点或驱动程序节点池作业因内存压力而终止时，作业会失败并返回错误 Driver received SIGTERM/SIGKILL signal and exited with INT 代码。如需查看这些消息，请启用日志记录，然后使用以下日志过滤条件：
```
resource.type="cloud_dataproc_cluster"
resource.labels.cluster_name="CLUSTER_NAME"
resource.labels.cluster_uuid="CLUSTER_UUID"
jsonPayload.message:"Driver received SIGTERM/SIGKILL signal and exited with"
    
```
- 检查 google.dataproc.oom-killer 日志或 dataproc.googleapis.com/node/problem_count，确认 Dataproc 内存保护功能终止了作业（请参阅进程终止）。
解决方案：
- 如果集群有驱动程序池，请将 driver-required-memory-mb 增加到实际作业内存用量。
- 如果集群没有驱动程序池，请重新创建集群，降低集群上运行的并发作业数上限。
- 使用内存更大的主节点机器类型。

工作器节点 YARN 容器终止

Dataproc 会在 YARN 资源管理器中写入以下消息：container id exited with code EXIT_CODE。如需查看这些消息，请启用 Logging，然后使用以下日志过滤条件：

resource.type="cloud_dataproc_cluster"
resource.labels.cluster_name="CLUSTER_NAME"
resource.labels.cluster_uuid="CLUSTER_UUID"
jsonPayload.message:"container" AND "exited with code" AND "which potentially signifies memory pressure on NODE

如果容器以 code INT 退出，请检查 google.dataproc.oom-killer 日志或 dataproc.googleapis.com/node/problem_count，确认 Dataproc 内存保护功能是否终止了作业（请参阅进程终止）。

解决方案：
- 检查容器大小是否配置正确。
- 考虑降低 yarn.nodemanager.resource.memory-mb。此属性用于控制用于调度 YARN 容器的内存量。
- 如果作业容器一直失败，请检查数据倾斜是否导致特定容器的使用量增加。如果是，请重新划分作业或增加工作器大小，以满足额外的内存要求。