Se usó la API de Cloud Translation para traducir esta página.

Herramientas de supervisión y solución de problemas de Dataproc

Dataproc es un servicio completamente administrado y de alta escalabilidad para ejecutar plataformas de procesamiento distribuido de código abierto, como Apache Hadoop, Apache Spark, Apache Flink y Trino. Puedes usar las herramientas y los archivos que se describen en las siguientes secciones para investigar, solucionar problemas y supervisar tus clústeres y trabajos de Dataproc.

Investigaciones potenciadas por IA con Gemini Cloud Assist (versión preliminar)

Descripción general

La función de vista previa de Gemini Cloud Assist Investigations usa las capacidades avanzadas de Gemini para ayudar a crear y ejecutar clústeres y trabajos de Dataproc. Esta función analiza los clústeres y los trabajos con errores o de ejecución lenta para identificar las causas raíz y recomendar correcciones. Crea análisis persistentes que puedes revisar, guardar y compartir con el equipo de asistencia para facilitar la colaboración y acelerar la resolución de problemas. Google Cloud

Funciones

Sigue estos pasos para crear investigaciones desde la consola de Google Cloud :

Agrega una descripción del contexto en lenguaje natural a un problema antes de crear una investigación.
Analiza los clústeres con errores y los trabajos lentos y con errores.
Obtén estadísticas sobre las causas raíz de los problemas con las correcciones recomendadas.
Crea Google Cloud casos de asistencia con el contexto completo de la investigación adjunto.

Antes de comenzar

Para comenzar a usar la función de investigación, en tu proyecto de Google Cloud , habilita la API de Gemini Cloud Assist.

Cómo crear una investigación

Para crear una investigación, haz lo siguiente:

En la consola de Google Cloud , ve a la página Investigaciones de Cloud Assist.

Investigaciones de Cloud Assist
Haga clic en Crear.
Describe el problema: Proporciona una descripción del problema del clúster o del trabajo.
Selecciona el período: Proporciona un período en el que ocurrió el problema (el valor predeterminado es de 30 minutos).
Selecciona recursos:
1. Haz clic en addAgregar recurso.
  1. En el campo Filtros rápidos, escribe "dataproc" y, luego, selecciona uno o más de los siguientes filtros: dataproc.Batch, dataproc.Job o dataproc.Cluster.
    También puedes filtrar por Ubicación.
  2. Selecciona el lote, el trabajo o el clúster que aparece en la lista para investigarlo.
    Puedes agregar varios recursos afectados por el problema.
Haz clic en Crear.

Interpreta los resultados de la investigación

Una vez que se completa una investigación, se abre la página Detalles de la investigación. Esta página contiene el análisis completo de Gemini, que se organiza en las siguientes secciones:

Problema: Es una sección contraída que contiene detalles completados automáticamente del trabajo que se está investigando.
Observaciones pertinentes: Es una sección contraída que enumera los puntos de datos y las anomalías clave que Gemini encontró durante su análisis de los registros y las métricas.
Hipótesis: Esta es la sección principal, que se expande de forma predeterminada. Presenta una lista de posibles causas raíz del problema observado. Cada hipótesis incluye lo siguiente:
- Descripción general: Es una descripción de la posible causa, como "Tiempo de escritura de Shuffle alto y posible sesgo de la tarea".
- Recommended Fixes: Una lista de pasos prácticos para abordar el problema potencial.

Toma medidas

Después de revisar las hipótesis y las recomendaciones, haz lo siguiente:

Aplica una o más de las correcciones sugeridas a la configuración o el código del trabajo y, luego, vuelve a ejecutarlo.
Para brindar comentarios sobre la utilidad de la investigación, haz clic en los íconos de Me gusta o No me gusta que se encuentran en la parte superior del panel.

Revisar y derivar investigaciones

Para revisar los resultados de una investigación ejecutada anteriormente, haz clic en el nombre de la investigación en la página Investigaciones de Cloud Assist para abrir la página Detalles de la investigación.

Si necesitas más ayuda, puedes abrir un Google Cloud caso de asistencia. Este proceso le proporciona al ingeniero de asistencia al cliente el contexto completo de la investigación realizada anteriormente, incluidas las observaciones y las hipótesis generadas por Gemini. Este uso compartido del contexto reduce significativamente la comunicación de ida y vuelta necesaria con el equipo de asistencia al cliente y permite resolver los casos más rápido.

Sigue estos pasos para crear un caso de asistencia a partir de una investigación:

En la página Detalles de la investigación, haz clic en Solicitar asistencia.

Estado y precios de la versión preliminar

No se aplican cargos por las investigaciones de Gemini Cloud Assist durante la versión preliminar pública. Se aplicarán cargos a la función cuando esté disponible para el público en general (DG).

Para obtener más información sobre los precios después de la disponibilidad general, consulta Precios de Gemini Cloud Assist.

Interfaces web de código abierto

Muchos componentes de código abierto de clústeres de Dataproc, como Apache Hadoop y Apache Spark, proporcionan interfaces web. Estas interfaces se pueden usar para supervisar los recursos del clúster y el rendimiento de los trabajos. Por ejemplo, puedes usar la IU de YARN Resource Manager para ver la asignación de recursos de la aplicación de YARN en un clúster de Dataproc.

Servidor de historial persistente

Las interfaces web de código abierto que se ejecutan en un clúster están disponibles cuando el clúster se está ejecutando, pero se cierran cuando borras el clúster. Para ver los datos del clúster y del trabajo después de que se borra un clúster, puedes crear un servidor de historial persistente (PHS).

Ejemplo: Te encuentras con un error o una ralentización del trabajo que deseas analizar. Detienes o borras el clúster de trabajo y, luego, ves y analizas los datos del historial de trabajos con tu PHS.

Después de crear un PHS, lo habilitas en un clúster de Dataproc o en una carga de trabajo por lotes deGoogle Cloud Serverless para Apache Spark cuando creas el clúster o envías la carga de trabajo por lotes. Un PHS puede acceder a datos históricos de trabajos ejecutados en varios clústeres, lo que te permite supervisar trabajos en un proyecto en lugar de supervisar IU independientes que se ejecutan en diferentes clústeres.

Registros de Dataproc

Dataproc recopila los registros que generan Apache Hadoop, Spark, Hive, Zookeeper y otros sistemas de código abierto que se ejecutan en tus clústeres, y los envía a Logging. Estos registros se agrupan según la fuente de los registros, lo que te permite seleccionar y ver los registros que te interesan. Por ejemplo, los registros de YARN NodeManager y Spark Executor generados en un clúster se etiquetan por separado. Consulta Registros de Dataproc para obtener más información sobre el contenido y las opciones de los registros de Dataproc.

Cloud Logging

Logging es un sistema de administración de registros en tiempo real y completamente administrado. Proporciona almacenamiento para los registros transferidos desde los servicios de Google Cloud y herramientas para buscar, filtrar y analizar registros a gran escala. Los clústeres de Dataproc generan varios registros, incluidos los registros del agente de servicio de Dataproc, los registros de inicio del clúster y los registros de componentes de OSS, como los registros de NodeManager de YARN.

El registro está habilitado de forma predeterminada en los clústeres de Dataproc y en las cargas de trabajo por lotes de Serverless para Apache Spark. Los registros se exportan periódicamente a Logging, donde persisten después de que se borra el clúster o se completa la carga de trabajo.

Métricas de Dataproc

Las métricas de clústeres y trabajos de Dataproc, que tienen el prefijo dataproc.googleapis.com/, constan de datos de series temporales que proporcionan estadísticas sobre el rendimiento de un clúster, como la utilización de la CPU o el estado del trabajo. Las métricas personalizadas de Dataproc, que tienen el prefijo custom.googleapis.com/, incluyen las métricas que emiten los sistemas de código abierto que se ejecutan en el clúster, como la métrica running applications de YARN. Obtener estadísticas sobre las métricas de Dataproc puede ayudarte a configurar tus clústeres de manera eficiente. Configurar alertas basadas en métricas puede ayudarte a reconocer y responder a los problemas rápidamente.

Las métricas de clústeres y trabajos de Dataproc se recopilan de forma predeterminada sin cargo. La recopilación de métricas personalizadas se cobra a los clientes. Puedes habilitar la recopilación de métricas personalizadas cuando creas un clúster. La recopilación de métricas de Spark de Serverless para Apache Spark está habilitada de forma predeterminada en las cargas de trabajo por lotes de Spark.

Cloud Monitoring

Monitoring usa metadatos y métricas de clústeres, incluidas las métricas de HDFS, YARN, trabajo y operación, para proporcionar visibilidad del estado, el rendimiento y la disponibilidad de los clústeres y trabajos de Dataproc. Puedes usar Monitoring para explorar métricas, agregar gráficos, crear paneles y generar alertas.

Explorador de métricas

Puedes usar el Explorador de métricas para ver las métricas de Dataproc. Las métricas de clústeres, trabajos y lotes de Dataproc Serverless para Apache Spark se enumeran en los recursos Cloud Dataproc Cluster, Cloud Dataproc Job y Cloud Dataproc Batch. Las métricas personalizadas de Dataproc se muestran en el recurso VM Instances, categoría Custom.

Gráficos

Puedes usar el Explorador de métricas para crear gráficos que visualicen las métricas de Dataproc.

Ejemplo: Creas un gráfico para ver la cantidad de aplicaciones de Yarn activas que se ejecutan en tus clústeres y, luego, agregas un filtro para seleccionar las métricas visualizadas por nombre o región del clúster.

Paneles

Puedes compilar paneles para supervisar los clústeres y los trabajos de Dataproc con métricas de varios proyectos y diferentes Google Cloud productos. Puedes crear paneles en la Google Cloud consola desde la páginaDescripción general de los paneles. Para ello, haz clic en un gráfico de la páginaExplorador de métricas, créalo y, luego, guárdalo.

Alertas

Puedes crear alertas de métricas de Dataproc para recibir notificaciones oportunas sobre problemas del clúster o del trabajo.

¿Qué sigue?

Obtén más información para solucionar problemas de mensajes de error de Dataproc.
Obtén información para ver los datos de diagnóstico de los clústeres de Dataproc.
Consulta las Preguntas frecuentes de Dataproc.