Herramientas de monitorización y solución de problemas de Dataproc

Dataproc es un servicio totalmente gestionado y muy escalable para ejecutar plataformas de procesamiento distribuido de código abierto, como Apache Hadoop, Apache Spark, Apache Flink y Trino. Puede usar las herramientas y los archivos que se describen en las siguientes secciones para investigar, solucionar problemas y monitorizar sus clústeres y trabajos de Dataproc.

Investigaciones basadas en IA con Gemini Cloud Assist (vista previa)

Información general

La función de vista previa de investigaciones de Gemini Cloud Assist usa las funciones avanzadas de Gemini para ayudar a crear y ejecutar clústeres y trabajos de Dataproc. Esta función analiza los clústeres y los trabajos fallidos y lentos para identificar las causas principales y recomendar correcciones. Crea análisis persistentes que puedes revisar, guardar y compartir con el equipo de Asistencia para facilitar la colaboración y acelerar la resolución de problemas. Google Cloud

Funciones

Usa esta función para crear investigaciones desde la consola Google Cloud :

  • Añade una descripción del contexto en lenguaje natural a un problema antes de crear una investigación.
  • Analiza los clústeres fallidos y los trabajos lentos o fallidos.
  • Obtén información valiosa sobre las causas de los problemas con las correcciones recomendadas.
  • Crea Google Cloud casos de asistencia con el contexto completo de la investigación adjunto.

Antes de empezar

Para empezar a usar la función de investigación, en tu Google Cloud proyecto, habilita la API Gemini Cloud Assist.

Crear una investigación

Para crear una investigación, sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Investigaciones de Cloud Assist.

    Cloud Assist Investigations

  2. Haz clic en Crear.

  3. Describe el problema: proporciona una descripción del problema del clúster o del trabajo.

  4. Seleccionar periodo: indica el periodo en el que se produjo el problema (el valor predeterminado es de 30 minutos).

  5. Selecciona recursos:

    1. Haz clic en Añadir recurso.
      1. En el campo Filtros rápidos, escriba "dataproc" y, a continuación, seleccione uno o varios de los siguientes filtros: dataproc.Batch, dataproc.Job o dataproc.Cluster.
      2. Selecciona el lote, el trabajo o el clúster de la lista para investigar.
  6. Haz clic en Crear.

Interpretar los resultados de la investigación

Una vez que se haya completado una investigación, se abrirá la página Detalles de la investigación. Esta página contiene el análisis completo de Gemini, que se organiza en las siguientes secciones:

  • Problema: sección contraída que contiene detalles rellenados automáticamente del trabajo que se está investigando.
  • Observaciones relevantes: una sección contraída que muestra los puntos de datos y las anomalías clave que ha encontrado Gemini durante su análisis de los registros y las métricas.
  • Hipótesis: es la sección principal, que se muestra de forma predeterminada. Se muestra una lista de posibles causas del problema observado. Cada hipótesis incluye lo siguiente:
    • Descripción general: una descripción de la posible causa, como "Tiempo de escritura aleatoria alto y posible sesgo de tareas".
    • Correcciones recomendadas: lista de pasos prácticos para solucionar el problema potencial.

Toma medidas

Después de revisar las hipótesis y las recomendaciones:

  • Aplica una o varias de las correcciones sugeridas a la configuración o al código de la tarea y vuelve a ejecutarla.

  • Para darnos tu opinión sobre la utilidad de la investigación, haz clic en los iconos Me gusta o No me gusta situados en la parte superior del panel.

Revisar y derivar investigaciones

Para revisar los resultados de una investigación anterior, haga clic en el nombre de la investigación en la página Investigaciones de Cloud Assist para abrir la página Detalles de la investigación.

Si necesitas más ayuda, puedes abrir un Google Cloud caso de asistencia. Este proceso proporciona al ingeniero de asistencia el contexto completo de la investigación realizada anteriormente, incluidas las observaciones y las hipótesis generadas por Gemini. Al compartir este contexto, se reduce significativamente la comunicación que se requiere con el equipo de Asistencia, lo que permite resolver los casos más rápido.

Para crear un caso de asistencia a partir de una investigación, sigue estos pasos:

En la página Detalles de la investigación, haga clic en Solicitar asistencia.

Estado y precios de la vista previa

No se aplican cargos por las investigaciones de Gemini Cloud Assist durante la vista previa pública. Se aplicarán cargos a la función cuando esté disponible de forma general.

Para obtener más información sobre los precios después de la disponibilidad general, consulta la página Precios de Gemini Cloud Assist.

Interfaces web de código abierto

Muchos componentes de software libre de clústeres de Dataproc, como Apache Hadoop y Apache Spark, proporcionan interfaces web. Estas interfaces se pueden usar para monitorizar los recursos del clúster y el rendimiento de los trabajos. Por ejemplo, puede usar la interfaz de usuario de YARN Resource Manager para ver la asignación de recursos de la aplicación YARN en un clúster de Dataproc.

Servidor de historial persistente

Las interfaces web de código abierto que se ejecutan en un clúster están disponibles cuando el clúster está en funcionamiento, pero se cierran cuando eliminas el clúster. Para ver los datos de clústeres y tareas después de eliminar un clúster, puedes crear un Persistent History Server (PHS).

Ejemplo: Se produce un error en un trabajo o se ralentiza y quieres analizarlo. Puedes detener o eliminar el clúster de tareas y, a continuación, ver y analizar los datos del historial de tareas con tu PHS.

Después de crear un PHS, puedes habilitarlo en un clúster de Dataproc o en unaGoogle Cloud carga de trabajo por lotes de Serverless para Apache Spark al crear el clúster o enviar la carga de trabajo por lotes. Un PHS puede acceder al historial de datos de las tareas ejecutadas en varios clústeres, lo que te permite monitorizar las tareas de un proyecto en lugar de monitorizar interfaces de usuario independientes que se ejecutan en diferentes clústeres.

Registros de Dataproc

Dataproc recoge los registros generados por Apache Hadoop, Spark, Hive, ZooKeeper y otros sistemas de código abierto que se ejecutan en tus clústeres y los envía a Logging. Estos registros se agrupan en función de la fuente de los registros, lo que le permite seleccionar y ver los registros que le interesen. Por ejemplo, los registros de YARN NodeManager y Spark Executor generados en un clúster se etiquetan por separado. Consulta Registros de Dataproc para obtener más información sobre el contenido y las opciones de los registros de Dataproc.

Cloud Logging

Logging es un sistema de gestión de registros en tiempo real totalmente gestionado. Proporciona almacenamiento para los registros insertados desde servicios y herramientas para buscar, filtrar y analizar registros a gran escala. Google Cloud Los clústeres de Dataproc generan varios registros, incluidos los registros del agente de servicio de Dataproc, los registros de inicio de clústeres y los registros de componentes de OSS, como los registros de NodeManager de YARN.

El registro está habilitado de forma predeterminada en los clústeres de Dataproc y en las cargas de trabajo por lotes de Serverless para Apache Spark. Los registros se exportan periódicamente a Logging, donde se conservan después de que se elimine el clúster o se complete la carga de trabajo.

Métricas de Dataproc

Las métricas de clústeres y trabajos de Dataproc, con el prefijo dataproc.googleapis.com/, se componen de datos de serie temporal que proporcionan información valiosa sobre el rendimiento de un clúster, como el uso de la CPU o el estado de los trabajos. Las métricas personalizadas de Dataproc, con el prefijo custom.googleapis.com/, incluyen métricas emitidas por sistemas de código abierto que se ejecutan en el clúster, como la métrica running applications de YARN. Conocer las métricas de Dataproc puede ayudarte a configurar tus clústeres de forma eficiente. Configurar alertas basadas en métricas puede ayudarte a reconocer y solucionar problemas rápidamente.

Las métricas de clústeres y tareas de Dataproc se recogen de forma predeterminada sin coste adicional. La recogida de métricas personalizadas se cobra a los clientes. Puede habilitar la recogida de métricas personalizadas cuando cree un clúster. La colección de métricas de Spark de Serverless para Apache Spark está habilitada de forma predeterminada en las cargas de trabajo por lotes de Spark.

Cloud Monitoring

Monitoring usa metadatos y métricas de clústeres, incluidas métricas de HDFS, YARN, trabajos y operaciones, para ofrecer visibilidad del estado, el rendimiento y la disponibilidad de los clústeres y trabajos de Dataproc. Puedes usar Monitoring para explorar métricas, añadir gráficos, crear paneles de control y configurar alertas.

Explorador de métricas

Puedes usar el explorador de métricas para ver las métricas de Dataproc. Las métricas de clústeres, trabajos y lotes de Serverless para Apache Spark de Dataproc se incluyen en los recursos Cloud Dataproc Cluster, Cloud Dataproc Job y Cloud Dataproc Batch. Las métricas personalizadas de Dataproc se muestran en la categoría VM Instances del recurso Custom.

Gráficos

Puede usar el explorador de métricas para crear gráficos que visualicen métricas de Dataproc.

Ejemplo: Creas un gráfico para ver el número de aplicaciones de Yarn activas que se ejecutan en tus clústeres y, a continuación, añades un filtro para seleccionar las métricas visualizadas por nombre o región del clúster.

Paneles de control

Puedes crear paneles de control para monitorizar clústeres y tareas de Dataproc mediante métricas de varios proyectos y de diferentes Google Cloud productos. Puedes crear paneles de control en la consola desde la página Vista general de paneles. Para ello, haz clic en un gráfico de la página Explorador de métricas, créalo y guárdalo. Google Cloud

Alertas

Puedes crear alertas de métricas de Dataproc para recibir avisos oportunos sobre problemas de clústeres o tareas.

Siguientes pasos