Herramientas de supervisión y solución de problemas de Dataproc

Introducción

Dataproc es un servicio completamente administrado y altamente escalable para ejecutar plataformas de procesamiento distribuido de código abierto, como Apache Hadoop, Apache Spark, Apache Flink y Trino. Puedes usar los archivos y las herramientas que se describen en las siguientes secciones para solucionar problemas y supervisar tus trabajos y clústeres de Dataproc.

Interfaces web de código abierto

Muchos componentes de código abierto del clúster de Dataproc, como Apache Hadoop y Apache Spark, proporcionan interfaces web. Estas interfaces se pueden usar para supervisar los recursos del clúster y el rendimiento de las tareas. Por ejemplo, puedes usar la IU del administrador de recursos de YARN para ver la asignación de recursos de la aplicación de YARN en un clúster de Dataproc.

Servidor de historial persistente

Las interfaces web de código abierto que se ejecutan en un clúster están disponibles cuando este está en funcionamiento, pero se cancelan cuando lo borras. Para ver los datos del clúster y del trabajo después de borrar un clúster, puedes crear un servidor de historial persistente (PHS).

Ejemplo: Encuentras un error o una ralentización en un trabajo que quieres analizar. Puedes detener o borrar el clúster de trabajo y, luego, ver y analizar los datos del historial de trabajo con tu PHS.

Después de crear un PHS, lo habilitas en un clúster de Dataproc o en una carga de trabajo por lotes de Dataproc Serverless cuando creas el clúster o envías la carga de trabajo por lotes. Un PHS puede acceder a los datos históricos de las tareas que se ejecutan en varios clústeres, lo que te permite supervisar las tareas en un proyecto en lugar de supervisar IUs independientes que se ejecutan en diferentes clústeres.

Registros de Dataproc

Dataproc recopila los registros generados por Apache Hadoop, Spark, Hive, Zookeeper y otros sistemas de código abierto que se ejecutan en tus clústeres y los envía a Logging. Estos registros se agrupan según la fuente de registros, lo que te permite seleccionar y ver los registros que te interesan. Por ejemplo, los registros de YARN NodeManager y Spark Executor generados en un clúster se etiquetan por separado. Consulta Registros de Dataproc para obtener más información sobre el contenido y las opciones de los registros de Dataproc.

Cloud Logging

El registro es un sistema de administración de registros en tiempo real y completamente administrado. Proporciona almacenamiento para los registros transferidos desde Google Cloud servicios y herramientas para buscar, filtrar y analizar registros a gran escala. Los clústeres de Dataproc generan varios registros, incluidos los registros del agente de servicio de Dataproc, los registros de inicio del clúster y los registros de componentes de OSS, como los registros de YARN NodeManager.

El registro está habilitado de forma predeterminada en los clústeres de Dataproc y las cargas de trabajo por lotes de Dataproc Serverless. Los registros se exportan periódicamente a Logging, donde persisten después de que se borra el clúster o se completa la carga de trabajo.

Métricas de Dataproc

Las métricas de clústeres y trabajos de Dataproc, que tienen el prefijo dataproc.googleapis.com/, consisten en datos de series temporales que proporcionan estadísticas sobre el rendimiento de un clúster, como la utilización de la CPU o el estado del trabajo. Las métricas personalizadas de Dataproc, que tienen el prefijo custom.googleapis.com/, incluyen métricas emitidas por sistemas de código abierto que se ejecutan en el clúster, como la métrica running applications de YARN. Obtener estadísticas sobre las métricas de Dataproc puede ayudarte a configurar tus clústeres de manera eficiente. Configurar alertas basadas en métricas puede ayudarte a reconocer y responder a los problemas rápidamente.

Las métricas de trabajos y clústeres de Dataproc se recopilan de forma predeterminada y sin cargo. La recopilación de métricas personalizadas se cobra a los clientes. Puedes habilitar la recopilación de métricas personalizadas cuando creas un clúster. La recopilación de métricas de Spark de Dataproc sin servidores está habilitada de forma predeterminada en las cargas de trabajo por lotes de Spark.

Cloud Monitoring

Monitoring usa métricas y metadatos de clústeres, incluidas las métricas de HDFS, YARN, trabajo y operación, para proporcionar visibilidad del estado, el rendimiento y la disponibilidad de los trabajos y clústeres de Dataproc. Puedes usar Monitoring para explorar métricas, agregar gráficos, compilar paneles y crear alertas.

Explorador de métricas

Puedes usar el Explorador de métricas para ver las métricas de Dataproc. Las métricas de clústeres, trabajos y lotes sin servidores de Dataproc se muestran en los recursos Cloud Dataproc Cluster, Cloud Dataproc Job y Cloud Dataproc Batch. Las métricas personalizadas de Dataproc se muestran en el recurso VM Instances, en la categoría Custom.

Gráficos

Puedes usar el Explorador de métricas para crear gráficos que visualicen las métricas de Dataproc.

Ejemplo: Creas un gráfico para ver la cantidad de aplicaciones activas de Yarn que se ejecutan en tus clústeres y, luego, agregas un filtro para seleccionar las métricas visualizadas por nombre de clúster o región.

Paneles

Puedes compilar paneles para supervisar los trabajos y clústeres de Dataproc con métricas de varios proyectos y diferentes Google Cloud productos. Puedes crear paneles en la consola de Google Cloud desde la página Descripción general de los paneles haciendo clic en un gráfico, creándolo y, luego, guardándolo en la página Explorador de métricas.

Alertas

Puedes crear alertas de métricas de Dataproc para recibir avisos oportunos sobre problemas de clústeres o trabajos.

Más información

Para obtener más información, consulta