Outils de surveillance et de dépannage de Dataproc

Introduction

Dataproc est un service entièrement géré et hautement évolutif permettant d'exécuter des plates-formes de traitement distribué Open Source telles qu'Apache Hadoop, Apache Spark, Apache Flink et Trino. Vous pouvez utiliser les fichiers et les outils décrits dans les sections suivantes pour dépanner et surveiller vos clusters et tâches Dataproc.

Interfaces Web Open Source

De nombreux composants Open Source de clusters Dataproc, tels qu'Apache Hadoop et Apache Spark, fournissent des interfaces Web. Ces interfaces permettent de surveiller les ressources du cluster et les performances des tâches. Par exemple, vous pouvez utiliser l'interface utilisateur du gestionnaire de ressources YARN pour afficher l'allocation des ressources de l'application YARN sur un cluster Dataproc.

Serveur d'historique persistant

Les interfaces Web Open Source exécutées sur un cluster sont disponibles lorsque celui-ci est en cours d'exécution, mais elles s'arrêtent lorsque vous supprimez le cluster. Pour afficher les données du cluster et des tâches après la suppression d'un cluster, vous pouvez créer un serveur d'historique persistant (PHS).

Exemple: Vous rencontrez une erreur ou un ralentissement de la tâche que vous souhaitez analyser. Vous arrêtez ou supprimez le cluster de tâches, puis affichez et analysez les données de l'historique des tâches à l'aide de votre PHS.

Après avoir créé une PHS, activez-la sur un cluster Dataproc ou une charge de travail par lot Dataproc sans serveur lorsque vous créez le cluster ou envoyez la charge de travail par lot. Un PHS peut accéder aux données d'historique des tâches exécutées sur plusieurs clusters, ce qui vous permet de surveiller les tâches d'un projet au lieu de surveiller des interfaces utilisateur distinctes exécutées sur différents clusters.

Journaux Dataproc

Dataproc collecte les journaux générés par Apache Hadoop, Spark, Hive, Zookeeper et d'autres systèmes Open Source exécutés sur vos clusters, puis les envoie à Logging. Ces journaux sont regroupés en fonction de leur source, ce qui vous permet de sélectionner et d'afficher les journaux qui vous intéressent. Par exemple, les journaux NodeManager et Spark Executor générés sur un cluster sont libellés séparément. Consultez la page Journaux Dataproc pour plus d'informations sur le contenu et les options des journaux Dataproc.

Cloud Logging

Logging est un système de gestion des journaux en temps réel entièrement géré. Cette solution fournit un espace de stockage pour les journaux ingérés à partir des services et outils Google Cloud permettant de rechercher, filtrer et analyser les journaux à grande échelle. Les clusters Dataproc génèrent plusieurs journaux, dont les journaux de l'agent de service Dataproc, les journaux de démarrage du cluster et les journaux des composants OSS, tels que les journaux NodeManager YARN.

La journalisation est activée par défaut sur les clusters et les charges de travail par lot Dataproc sans serveur. Les journaux sont régulièrement exportés vers Logging, où ils sont conservés après la suppression du cluster ou l'achèvement de la charge de travail.

Métriques Dataproc

Les métriques de cluster et de tâches Dataproc, précédées de dataproc.googleapis.com/, sont constituées de données de séries temporelles qui fournissent des insights sur les performances d'un cluster, telles que l'utilisation du processeur ou l'état des tâches. Les métriques personnalisées Dataproc, avec le préfixe custom.googleapis.com/, incluent les métriques émises par les systèmes Open Source s'exécutant sur le cluster, telles que la métrique YARN running applications. Obtenir des insights sur les métriques Dataproc peut vous aider à configurer efficacement vos clusters. La configuration d'alertes basées sur des métriques peut vous aider à détecter et à résoudre rapidement les problèmes.

Par défaut, les métriques de cluster et de tâches Dataproc sont collectées sans frais. La collecte de métriques personnalisées est facturée aux clients. Vous pouvez activer la collecte de métriques personnalisées lors de la création d'un cluster. La collecte de métriques Spark sans serveur Dataproc est activée par défaut sur les charges de travail par lot Spark.

Cloud Monitoring

Monitoring utilise des métadonnées et des métriques de cluster, y compris HDFS, YARN, les tâches et les métriques d'opérations, pour fournir une visibilité sur l'état, les performances et la disponibilité des clusters et des tâches Dataproc. Monitoring vous permet d'explorer des métriques, d'ajouter des graphiques, de créer des tableaux de bord et de créer des alertes.

Explorateur de métriques

Vous pouvez utiliser l'Explorateur de métriques pour afficher les métriques Dataproc. Les métriques de cluster, de tâche et de traitement par lot sans serveur Dataproc sont répertoriées sous les ressources Cloud Dataproc Cluster, Cloud Dataproc Job et Cloud Dataproc Batch. Les métriques personnalisées Dataproc sont répertoriées sous la ressource VM Instances, catégorie Custom.

Graphiques

Vous pouvez utiliser l'Explorateur de métriques pour créer des graphiques permettant de visualiser les métriques Dataproc.

Exemple: Vous créez un graphique pour afficher le nombre d'applications Yarn actives exécutées sur vos clusters, puis vous ajoutez un filtre pour sélectionner les métriques visualisées par nom ou région de cluster.

Tableaux de bord

Vous pouvez créer des tableaux de bord pour surveiller les clusters et les tâches Dataproc à l'aide des métriques de plusieurs projets et différents produits Google Cloud. Vous pouvez créer des tableaux de bord dans la console Google Cloud à partir de la page Aperçu des tableaux de bord. Pour ce faire, cliquez sur un graphique, créez-le, puis enregistrez-le à partir de la page Explorateur de métriques.

Alertes

Vous pouvez créer des alertes de métriques Dataproc pour être informé en temps opportun des problèmes de cluster ou de tâche.

Pour en savoir plus

Pour obtenir des conseils supplémentaires, consultez