En esta página se proporciona información sobre los errores de falta de memoria (OOM) de las VMs de Dataproc en Compute Engine y se explican los pasos que puede seguir para solucionar estos errores.
Efectos de los errores de falta de memoria
Cuando las VMs de Dataproc en Compute Engine se quedan sin memoria (OOM), se producen las siguientes situaciones:
Las VMs maestras y de trabajador se congelan durante un periodo.
Los errores de falta de memoria (OOM) de las VMs maestras provocan que los trabajos fallen y se muestren errores de "tarea no adquirida".
Los errores de falta de memoria de la VM de trabajador provocan la pérdida del nodo en YARN HDFS, lo que retrasa la ejecución de los trabajos de Dataproc.
Controles de memoria de YARN
Apache YARN proporciona los siguientes tipos de controles de memoria:
- Basada en sondeos (versión antigua)
- Estricto
- Elastic
De forma predeterminada, Dataproc no define
yarn.nodemanager.resource.memory.enabled
para habilitar los controles de memoria de YARN por los siguientes motivos:
- Un control estricto de la memoria puede provocar la finalización de los contenedores cuando haya suficiente memoria si los tamaños de los contenedores no están configurados correctamente.
- Los requisitos de control de memoria elástica pueden afectar negativamente a la ejecución de los trabajos.
- Los controles de memoria de YARN no pueden evitar los errores de falta de memoria cuando los procesos consumen memoria de forma agresiva.
Protección de memoria de Dataproc
Cuando una VM de un clúster de Dataproc tiene problemas de memoria, la protección de memoria de Dataproc finaliza los procesos o los contenedores hasta que se elimina la condición de falta de memoria.
Dataproc ofrece protección de memoria para los siguientes nodos de clúster en las siguientes versiones de imagen de Dataproc en Compute Engine:
Rol | 1,5 | 2,0 | 2.1 | 2.2 |
---|---|---|---|---|
VM maestra | 1.5.74+ | 2.0.48+ | todos | todos |
VM de trabajador | No disponible | 2.0.76+ | 2.1.24+ | todos |
VM de Driver Pool | No disponible | 2.0.76+ | 2.1.24+ | todos |
Identificar y confirmar las finalizaciones de la protección de memoria
Puedes usar la siguiente información para identificar y confirmar las finalizaciones de trabajos debidas a la presión de la memoria.
Procesar finalizaciones
Los procesos que termina la protección de memoria de Dataproc salen con el código
137
o143
.Cuando Dataproc finaliza un proceso debido a la presión de memoria, pueden ocurrir las siguientes acciones o condiciones:
- Dataproc incrementa la métrica acumulativa
dataproc.googleapis.com/node/problem_count
y asigna el valorreason
aProcessKilledDueToMemoryPressure
. Consulta Recogida de métricas de recursos de Dataproc. - Dataproc escribe un registro
google.dataproc.oom-killer
con el mensaje:"A process is killed due to memory pressure: process name
. Para ver estos mensajes, habilita el registro y, a continuación, usa el siguiente filtro de registro:resource.type="cloud_dataproc_cluster" resource.labels.cluster_name="CLUSTER_NAME" resource.labels.cluster_uuid="CLUSTER_UUID" jsonPayload.message:"A process is killed due to memory pressure:"
- Dataproc incrementa la métrica acumulativa
Finalizaciones de tareas de grupos de nodos maestros o de controladores
Cuando una tarea de un nodo maestro o de un grupo de nodos de controlador de Dataproc finaliza debido a la presión de la memoria, la tarea falla con el código de error
Driver received SIGTERM/SIGKILL signal and exited with INT
. Para ver estos mensajes, habilita el registro y, a continuación, usa el siguiente filtro de registro:resource.type="cloud_dataproc_cluster" resource.labels.cluster_name="CLUSTER_NAME" resource.labels.cluster_uuid="CLUSTER_UUID" jsonPayload.message:"Driver received SIGTERM/SIGKILL signal and exited with"
- Consulta el registro
google.dataproc.oom-killer
dataproc.googleapis.com/node/problem_count
para confirmar que Protección de memoria de Dataproc ha finalizado el trabajo (consulta Finalizaciones de procesos).
Soluciones:
- Si el clúster tiene un grupo de controladores,
aumenta
driver-required-memory-mb
al uso real de memoria del trabajo. - Si el clúster no tiene un grupo de controladores, vuelve a crearlo y reduce el número máximo de trabajos simultáneos que se ejecutan en el clúster.
- Usa un tipo de máquina de nodo maestro con más memoria.
- Consulta el registro
Finalizaciones de contenedores YARN de nodos de trabajador
Dataproc escribe el siguiente mensaje en el gestor de recursos de YARN:
container id exited with code EXIT_CODE
. Para ver estos mensajes, habilita el registro y, a continuación, usa el siguiente filtro de registro:resource.type="cloud_dataproc_cluster" resource.labels.cluster_name="CLUSTER_NAME" resource.labels.cluster_uuid="CLUSTER_UUID" jsonPayload.message:"container" AND "exited with code" AND "which potentially signifies memory pressure on NODE
Si un contenedor ha finalizado con
code INT
, consulta el registro degoogle.dataproc.oom-killer
o el dedataproc.googleapis.com/node/problem_count
para confirmar que la protección de memoria de Dataproc ha finalizado la tarea (consulta Finalizaciones de procesos).Soluciones:
- Comprueba que los tamaños de los contenedores estén configurados correctamente.
- Te recomendamos que bajes
yarn.nodemanager.resource.memory-mb
. Esta propiedad controla la cantidad de memoria que se usa para programar contenedores de YARN. - Si los contenedores de trabajos fallan de forma constante, comprueba si la asimetría de datos está provocando un mayor uso de contenedores específicos. Si es así, vuelve a particionar el trabajo o aumenta el tamaño del trabajador para adaptarlo a los requisitos de memoria adicionales.