Herramientas de supervisión y solución de problemas de Dataproc

Introducción

Dataproc es un servicio completamente administrado y altamente escalable para ejecutar plataformas de procesamiento distribuidas de código abierto, como Apache Hadoop, Apache Spark, Apache Flink y Truino. Puedes usar los archivos y las herramientas que se analizan en las siguientes secciones para solucionar problemas y supervisar tus clústeres y trabajos de Dataproc.

Interfaces web de código abierto

Muchos componentes de código abierto del clúster de Dataproc, como Apache Hadoop y Apache Spark, proporcionan interfaces web. Estas interfaces se pueden usar para supervisar los recursos del clúster y el rendimiento del trabajo. Por ejemplo, puedes usar la IU de YARN Resource Manager para ver la asignación de recursos de aplicación de YARN en un clúster de Dataproc.

Servidor de historial persistente

Las interfaces web de código abierto que se ejecutan en un clúster están disponibles cuando este se está ejecutando, pero finalizan cuando borras el clúster. Para ver los datos del trabajo y del clúster después de borrarlo, puedes crear un servidor de historial persistente (PHS).

Ejemplo: Encuentras un error o una demora del trabajo que quieres analizar. Debes detener o borrar el clúster de trabajos y, luego, ver y analizar los datos del historial de trabajos con tu PHS.

Después de crear un PHS, debes habilitarlo en un clúster de Dataproc o en una carga de trabajo por lotes de Dataproc Serverless cuando crees el clúster o envíes la carga de trabajo por lotes. Un PHS puede acceder a los datos del historial de trabajos ejecutados en varios clústeres, lo que te permite supervisar trabajos en un proyecto en lugar de supervisar IU independientes que se ejecutan en clústeres diferentes.

Registros de Dataproc

Dataproc recopila los registros generados por Apache Hadoop, Spark, Hive, Zookeeper y otros sistemas de código abierto que se ejecutan en tus clústeres y los envía a Logging. Estos registros se agrupan según la fuente de los registros, lo que te permite seleccionar y ver los registros que te interesan: por ejemplo, los registros de YARN NodeManager y del ejecutor de Spark generados en un clúster se etiquetan por separado. Consulta Registros de Dataproc para obtener más información sobre el contenido y las opciones de registros de Dataproc.

Cloud Logging

Logging es un sistema de administración de registros en tiempo real y completamente administrado. Proporciona almacenamiento para los registros transferidos desde los servicios y herramientas de Google Cloud a fin de buscar, filtrar y analizar registros a gran escala. Los clústeres de Dataproc generan varios registros, incluidos los del agente de servicio de Dataproc, los registros de inicio del clúster y los registros de los componentes de OSS, como los registros de NodeManager de YARN.

Logging está habilitado de forma predeterminada en los clústeres de Dataproc y las cargas de trabajo por lotes sin servidores de Dataproc. Los registros se exportan de forma periódica a Logging, donde se conservan después de que se borra el clúster o se completa la carga de trabajo.

Métricas de Dataproc

Las métricas del trabajo y del clúster de Dataproc, con el prefijo dataproc.googleapis.com/, consisten en datos de series temporales que proporcionan estadísticas sobre el rendimiento de un clúster, como el uso de CPU o el estado del trabajo. Las métricas personalizadas de Dataproc, con el prefijo custom.googleapis.com/, incluyen métricas emitidas por los sistemas de código abierto que se ejecutan en el clúster, como la métrica running applications de YARN. Obtener estadísticas sobre las métricas de Dataproc puede ayudarte a configurar tus clústeres de manera eficiente. La configuración de alertas basadas en métricas puede ayudarte a reconocer los problemas y responder a ellos con rapidez.

Las métricas del trabajo y del clúster de Dataproc se recopilan de forma predeterminada sin cargo. La recopilación de métricas personalizadas se cobra a los clientes. Puedes habilitar la recopilación de métricas personalizadas cuando crees un clúster. La recopilación de las métricas de Spark sin servidores de Dataproc está habilitada de forma predeterminada en las cargas de trabajo por lotes de Spark.

Cloud Monitoring

Monitoring usa metadatos y métricas del clúster, incluidos HDFS, YARN, trabajos y métricas de operación para proporcionar visibilidad del estado, el rendimiento y la disponibilidad de los clústeres y trabajos de Dataproc. Puedes usar Monitoring para explorar métricas, agregar gráficos, compilar paneles y crear alertas.

Explorador de métricas

Puedes usar el Explorador de métricas para ver las métricas de Dataproc. Las métricas del clúster, el trabajo y el lote sin servidores de Dataproc se enumeran en los recursos Cloud Dataproc Cluster, Cloud Dataproc Job y Cloud Dataproc Batch. Las métricas personalizadas de Dataproc se enumeran en la categoría Custom del recurso VM Instances.

Gráficos

Puedes usar el Explorador de métricas para crear gráficos que visualicen las métricas de Dataproc.

Ejemplo: Creas un gráfico para ver la cantidad de aplicaciones Yarn activas que se ejecutan en tus clústeres y, luego, agregas un filtro para seleccionar las métricas visualizadas por nombre del clúster o región.

Paneles

Puedes compilar paneles para supervisar clústeres y trabajos de Dataproc con métricas de varios proyectos y diferentes productos de Google Cloud. Puedes compilar paneles en la consola de Google Cloud desde la página Descripción general de los paneles. Para ello, haz clic en la página del Explorador de métricas, crea un gráfico y, luego, guárdalo.

Alertas

Puedes crear alertas de métricas de Dataproc para recibir avisos oportunos de problemas con clústeres o trabajos.

Para más información

Para obtener orientación adicional, consulta