Outils de surveillance et de dépannage de Dataproc

Dataproc est un service entièrement géré et hautement évolutif qui permet d'exécuter des plates-formes de traitement distribué Open Source telles qu'Apache Hadoop, Apache Spark, Apache Flink et Trino. Vous pouvez utiliser les outils et les fichiers présentés dans les sections suivantes pour examiner, dépanner et surveiller vos clusters et vos jobs Dataproc.

Investigations optimisées par l'IA avec Gemini Cloud Assist (version preview)

Présentation

La fonctionnalité d'investigation Gemini Cloud Assist en preview utilise les fonctionnalités avancées de Gemini pour vous aider à créer et à exécuter des clusters et des jobs Dataproc. Cette fonctionnalité analyse les clusters et les jobs ayant échoué ou s'exécutant lentement pour identifier les causes fondamentales et recommander des corrections. Il crée une analyse persistante que vous pouvez examiner, enregistrer et partager avec l'assistance Google Cloud pour faciliter la collaboration et accélérer la résolution des problèmes.

Fonctionnalités

Utilisez cette fonctionnalité pour créer des investigations à partir de la console Google Cloud  :

  • Ajoutez une description du contexte en langage naturel à un problème avant de créer une investigation.
  • Analysez les clusters en échec, ainsi que les tâches lentes et en échec.
  • Obtenez des informations sur les causes premières des problèmes et des corrections recommandées.
  • Créez des demandes d'assistance Google Cloud avec le contexte complet de l'enquête en pièce jointe.

Avant de commencer

Pour commencer à utiliser la fonctionnalité d'investigation, activez l'API Gemini Cloud Assist dans votre projet Google Cloud .

Créer une investigation

Pour créer une investigation :

  1. Dans la console Google Cloud , accédez à la page Investigations Cloud Assist.

    Investigations Cloud Assist

  2. Cliquez sur  Créer.

  3. Décrivez le problème : décrivez le problème lié au cluster ou au job.

  4. Sélectionnez une période : indiquez la période pendant laquelle le problème s'est produit (30 minutes par défaut).

  5. Sélectionnez des ressources :

    1. Cliquez sur Ajouter une ressource.
      1. Dans le champ Filtres rapides, saisissez "dataproc", puis sélectionnez un ou plusieurs des filtres dataproc.Batch, dataproc.Job ou dataproc.Cluster.
      2. Sélectionnez le lot, le job ou le cluster listé à examiner.
  6. Cliquez sur Créer.

Interpréter les résultats d'une investigation

Une fois l'investigation terminée, la page Détails de l'investigation s'ouvre. Cette page contient l'analyse complète de Gemini, qui est organisée dans les sections suivantes :

  • Problème : section réduite contenant les détails renseignés automatiquement sur le job en cours d'examen.
  • Observations pertinentes : section réduite qui liste les points de données clés et les anomalies détectées par Gemini lors de l'analyse des journaux et des métriques.
  • Hypothèses : il s'agit de la section principale, qui est développée par défaut. Il présente une liste des causes potentielles du problème observé. Chaque hypothèse inclut les éléments suivants :
    • Présentation : description de la cause possible, par exemple "Temps d'écriture du shuffle élevé et déséquilibre potentiel des tâches".
    • Solutions recommandées : liste d'étapes concrètes à suivre pour résoudre le problème potentiel.

Intervenir

Après avoir examiné les hypothèses et les recommandations :

  • Appliquez une ou plusieurs des corrections suggérées à la configuration ou au code du job, puis réexécutez le job.

  • Pour nous indiquer si l'investigation vous a été utile, cliquez sur les icônes J'aime ou Je n'aime pas en haut du panneau.

Examiner et escalader des enquêtes

Pour consulter les résultats d'une investigation précédemment exécutée, cliquez sur le nom de l'investigation sur la page Investigations Cloud Assist pour ouvrir la page Détails de l'investigation.

Si vous avez besoin d'aide supplémentaire, vous pouvez ouvrir une demande d'assistance Google Cloud . Ce processus fournit à l'ingénieur de l'assistance le contexte complet de l'investigation précédemment effectuée, y compris les observations et les hypothèses générées par Gemini. Ce partage de contexte réduit considérablement les échanges nécessaires avec l'équipe d'assistance et permet de résoudre les demandes plus rapidement.

Pour créer une demande d'assistance à partir d'une enquête :

Sur la page Détails de l'enquête, cliquez sur Demander de l'aide.

État et tarifs de l'aperçu

Les investigations Gemini Cloud Assist ne sont pas facturées pendant la version Preview publique. Des frais s'appliqueront à la fonctionnalité lorsqu'elle sera disponible pour tous les utilisateurs.

Pour en savoir plus sur les tarifs après la disponibilité générale, consultez Tarifs de Gemini Cloud Assist.

Interfaces Web Open Source

De nombreux composants Open Source des clusters Dataproc, tels qu'Apache Hadoop et Apache Spark, fournissent des interfaces Web. Ces interfaces peuvent être utilisées pour surveiller les ressources du cluster et les performances des jobs. Par exemple, vous pouvez utiliser l'interface utilisateur du gestionnaire de ressources YARN pour afficher l'allocation des ressources d'application YARN sur un cluster Dataproc.

Serveur d'historique persistant

Les interfaces Web Open Source exécutées sur un cluster sont disponibles lorsque le cluster est en cours d'exécution, mais elles s'arrêtent lorsque vous supprimez le cluster. Pour afficher les données de cluster et de tâches après la suppression d'un cluster, vous pouvez créer un serveur d'historique persistant (PHS).

Exemple : Vous rencontrez une erreur ou un ralentissement de tâche que vous souhaitez analyser. Vous arrêtez ou supprimez le cluster de tâches, puis vous affichez et analysez les données de l'historique des tâches à l'aide de votre PHS.

Une fois que vous avez créé un PHS, vous l'activez sur un cluster Dataproc ou une charge de travail par lotGoogle Cloud Serverless pour Apache Spark lorsque vous créez le cluster ou envoyez la charge de travail par lot. Un serveur d'historique persistant peut accéder aux données d'historique des jobs exécutés sur plusieurs clusters. Vous pouvez ainsi surveiller les jobs d'un projet au lieu de surveiller des interfaces utilisateur distinctes exécutées sur différents clusters.

Journaux Dataproc

Dataproc collecte les journaux générés par Apache Hadoop, Spark, Hive, Zookeeper et d'autres systèmes Open Source exécutés sur vos clusters, puis les envoie à Logging. Ces journaux sont regroupés en fonction de leur source, ce qui vous permet de sélectionner et d'afficher ceux qui vous intéressent. Par exemple, les journaux YARN NodeManager et Spark Executor générés sur un cluster sont étiquetés séparément. Pour en savoir plus sur le contenu et les options des journaux Dataproc, consultez Journaux Dataproc.

Cloud Logging

Logging est un système de gestion des journaux en temps réel entièrement géré. Il fournit un espace de stockage pour les journaux ingérés à partir des services Google Cloud et des outils permettant de rechercher, filtrer et analyser les journaux à grande échelle. Les clusters Dataproc génèrent plusieurs journaux, y compris les journaux de l'agent de service Dataproc, les journaux de démarrage du cluster et les journaux des composants OSS, tels que les journaux YARN NodeManager.

La journalisation est activée par défaut sur les clusters Dataproc et les charges de travail par lot Serverless pour Apache Spark. Les journaux sont exportés régulièrement vers Logging, où ils sont conservés après la suppression du cluster ou la fin de la charge de travail.

Métriques Dataproc

Les métriques de cluster et de job Dataproc, préfixées par dataproc.googleapis.com/, se composent de données de série temporelle qui fournissent des informations sur les performances d'un cluster, telles que l'utilisation du processeur ou l'état du job. Les métriques personnalisées Dataproc, préfixées par custom.googleapis.com/, incluent les métriques émises par les systèmes Open Source exécutés sur le cluster, comme la métrique running applications de YARN. Obtenir des insights sur les métriques Dataproc peut vous aider à configurer efficacement vos clusters. La configuration d'alertes basées sur des métriques peut vous aider à identifier et à résoudre rapidement les problèmes.

Les métriques de cluster et de job Dataproc sont collectées par défaut sans frais. La collecte de métriques personnalisées est facturée aux clients. Vous pouvez activer la collecte de métriques personnalisées lorsque vous créez un cluster. La collecte des métriques Spark de Serverless pour Apache Spark est activée par défaut sur les charges de travail par lot Spark.

Cloud Monitoring

La surveillance utilise les métadonnées et les métriques des clusters, y compris les métriques HDFS, YARN, de tâches et d'opérations, pour offrir une visibilité sur l'état, les performances et la disponibilité des clusters et des tâches Dataproc. Vous pouvez utiliser Monitoring pour explorer des métriques, ajouter des graphiques, créer des tableaux de bord et configurer des alertes.

Explorateur de métriques

Vous pouvez utiliser l'explorateur de métriques pour afficher les métriques Dataproc. Les métriques de cluster, de job et de traitement par lot Dataproc sans serveur pour Apache Spark sont listées sous les ressources Cloud Dataproc Cluster, Cloud Dataproc Job et Cloud Dataproc Batch. Les métriques personnalisées Dataproc sont listées sous la ressource VM Instances, catégorie Custom.

Graphiques

Vous pouvez utiliser l'explorateur de métriques pour créer des graphiques qui visualisent les métriques Dataproc.

Exemple : Vous créez un graphique pour afficher le nombre d'applications Yarn actives exécutées sur vos clusters, puis vous ajoutez un filtre pour sélectionner les métriques visualisées par nom ou région de cluster.

Tableaux de bord

Vous pouvez créer des tableaux de bord pour surveiller les clusters et les jobs Dataproc à l'aide de métriques provenant de plusieurs projets et de différents produits Google Cloud . Vous pouvez créer des tableaux de bord dans la console Google Cloud à partir de la page Aperçu des tableaux de bord en cliquant sur un graphique de la page Explorateur de métriques, puis en le créant et en l'enregistrant.

Alertes

Vous pouvez créer des alertes sur les métriques Dataproc pour être averti rapidement des problèmes liés aux clusters ou aux jobs.

Étapes suivantes