Outils de surveillance et de dépannage de Dataproc

Présentation

Dataproc est un service entièrement géré et hautement évolutif qui permet d'exécuter des plates-formes de traitement distribuées Open Source telles qu'Apache Hadoop, Apache Spark, Apache Flink et Trino. Vous pouvez utiliser les fichiers et les outils décrits dans les sections suivantes pour résoudre les problèmes et surveiller vos clusters et jobs Dataproc.

Interfaces Web Open Source

De nombreux composants Open Source de cluster Dataproc, tels qu'Apache Hadoop et Apache Spark, fournissent des interfaces Web. Ces interfaces peuvent être utilisées pour surveiller les ressources du cluster et les performances des tâches. Par exemple, vous pouvez utiliser l'interface utilisateur du gestionnaire de ressources YARN pour afficher l'allocation des ressources d'application YARN sur un cluster Dataproc.

Serveur d'historique persistant

Les interfaces Web Open Source exécutées sur un cluster sont disponibles lorsque le cluster est en cours d'exécution, mais elles s'arrêtent lorsque vous supprimez le cluster. Pour afficher les données de cluster et de tâche après la suppression d'un cluster, vous pouvez créer un serveur d'historique persistant (PHS).

Exemple: Vous rencontrez une erreur ou un ralentissement de tâche que vous souhaitez analyser. Vous arrêtez ou supprimez le cluster de tâches, puis affichez et analysez les données de l'historique des tâches à l'aide de votre PHS.

Une fois que vous avez créé un PHS, vous l'activez sur un cluster Dataproc ou une charge de travail par lot Dataproc sans serveur lorsque vous créez le cluster ou envoyez la charge de travail par lot. Un PHS peut accéder aux données d'historique des tâches exécutées sur plusieurs clusters, ce qui vous permet de surveiller les tâches d'un projet au lieu de surveiller des UI distinctes exécutées sur différents clusters.

Journaux Dataproc

Dataproc collecte les journaux générés par Apache Hadoop, Spark, Hive, Zookeeper et d'autres systèmes Open Source exécutés sur vos clusters, et les envoie à Logging. Ces journaux sont regroupés en fonction de leur source, ce qui vous permet de sélectionner et d'afficher les journaux qui vous intéressent: par exemple, les journaux YARN NodeManager et Spark Executor générés sur un cluster sont étiquetés séparément. Pour en savoir plus sur le contenu et les options des journaux Dataproc, consultez la section Journaux Dataproc.

Cloud Logging

La journalisation est un système de gestion des journaux en temps réel entièrement géré. Il fournit un espace de stockage pour les journaux ingérés à partir des services et des outils Google Cloud, et des outils pour rechercher, filtrer et analyser les journaux à grande échelle. Les clusters Dataproc génèrent plusieurs journaux, y compris les journaux de l'agent de service Dataproc, les journaux de démarrage du cluster et les journaux des composants OSS, tels que les journaux NodeManager YARN.

La journalisation est activée par défaut sur les clusters Dataproc et les charges de travail par lot Dataproc sans serveur. Les journaux sont exportés régulièrement vers Logging, où ils persistent après la suppression du cluster ou la fin de la charge de travail.

Métriques Dataproc

Les métriques de cluster et de tâche Dataproc, précédées du préfixe dataproc.googleapis.com/, consistent en des données de série temporelle qui fournissent des insights sur les performances d'un cluster, comme l'utilisation du processeur ou l'état de la tâche. Les métriques personnalisées Dataproc, précédées du préfixe custom.googleapis.com/, incluent les métriques émises par les systèmes Open Source exécutés sur le cluster, comme la métrique running applications YARN. Obtenir des insights sur les métriques Dataproc peut vous aider à configurer vos clusters efficacement. Configurer des alertes basées sur des métriques peut vous aider à identifier et à résoudre rapidement les problèmes.

Les métriques des clusters et des tâches Dataproc sont collectées par défaut sans frais. La collecte des métriques personnalisées est facturée aux clients. Vous pouvez activer la collecte de métriques personnalisées lorsque vous créez un cluster. La collecte des métriques Spark Dataproc sans serveur est activée par défaut sur les charges de travail par lot Spark.

Cloud Monitoring

Monitoring utilise les métadonnées et les métriques de cluster, y compris les métriques HDFS, YARN, de tâche et d'opération, pour fournir une visibilité sur l'état, les performances et la disponibilité des clusters et des tâches Dataproc. Vous pouvez utiliser Monitoring pour explorer des métriques, ajouter des graphiques, créer des tableaux de bord et des alertes.

Explorateur de métriques

Vous pouvez utiliser l'explorateur de métriques pour afficher les métriques Dataproc. Les métriques de cluster, de tâche et de lot sans serveur Dataproc sont répertoriées sous les ressources Cloud Dataproc Cluster, Cloud Dataproc Job et Cloud Dataproc Batch. Les métriques personnalisées Dataproc sont répertoriées sous la ressource VM Instances, catégorie Custom.

Graphiques

Vous pouvez utiliser l'explorateur de métriques pour créer des graphiques qui visualisent les métriques Dataproc.

Exemple: Vous créez un graphique pour afficher le nombre d'applications Yarn actives exécutées sur vos clusters, puis vous ajoutez un filtre pour sélectionner les métriques visualisées par nom de cluster ou par région.

Tableaux de bord

Vous pouvez créer des tableaux de bord pour surveiller les clusters et les tâches Dataproc à l'aide de métriques provenant de plusieurs projets et de différents produits Google Cloud. Vous pouvez créer des tableaux de bord dans la console Google Cloud à partir de la page Aperçu des tableaux de bord en cliquant sur un graphique, en le créant, puis en l'enregistrant depuis la page Explorateur de métriques.

Alertes

Vous pouvez créer des alertes de métrique Dataproc pour recevoir des notifications en temps opportun sur les problèmes liés au cluster ou aux tâches.

Pour en savoir plus

Pour en savoir plus, consultez