Dataproc est un service entièrement géré et hautement évolutif qui permet d'exécuter des plates-formes de traitement distribué Open Source telles qu'Apache Hadoop, Apache Spark, Apache Flink et Trino. Vous pouvez utiliser les outils et les fichiers présentés dans les sections suivantes pour examiner, dépanner et surveiller vos clusters et vos jobs Dataproc.
Investigations optimisées par l'IA avec Gemini Cloud Assist (version preview)
Présentation
La fonctionnalité d'investigation Gemini Cloud Assist en preview utilise les fonctionnalités avancées de Gemini pour vous aider à créer et à exécuter des clusters et des jobs Dataproc. Cette fonctionnalité analyse les clusters et les jobs ayant échoué ou s'exécutant lentement pour identifier les causes fondamentales et recommander des corrections. Il crée une analyse persistante que vous pouvez examiner, enregistrer et partager avec l'assistance Google Cloud pour faciliter la collaboration et accélérer la résolution des problèmes.
Fonctionnalités
Utilisez cette fonctionnalité pour créer des investigations à partir de la console Google Cloud :
- Ajoutez une description du contexte en langage naturel à un problème avant de créer une investigation.
- Analysez les clusters en échec, ainsi que les tâches lentes et en échec.
- Obtenez des informations sur les causes premières des problèmes et des corrections recommandées.
- Créez des demandes d'assistance Google Cloud avec le contexte complet de l'enquête en pièce jointe.
Avant de commencer
Pour commencer à utiliser la fonctionnalité d'investigation, activez l'API Gemini Cloud Assist dans votre projet Google Cloud .
Créer une investigation
Pour créer une investigation :
Dans la console Google Cloud , accédez à la page Investigations Cloud Assist.
Cliquez sur
Créer.Décrivez le problème : décrivez le problème lié au cluster ou au job.
Sélectionnez une période : indiquez la période pendant laquelle le problème s'est produit (30 minutes par défaut).
Sélectionnez des ressources :
- Cliquez sur
- Dans le champ Filtres rapides, saisissez "dataproc", puis sélectionnez un ou plusieurs des filtres
dataproc.Batch
,dataproc.Job
oudataproc.Cluster
. - Sélectionnez le lot, le job ou le cluster listé à examiner.
Ajouter une ressource.
- Dans le champ Filtres rapides, saisissez "dataproc", puis sélectionnez un ou plusieurs des filtres
- Cliquez sur
Cliquez sur Créer.
Interpréter les résultats d'une investigation
Une fois l'investigation terminée, la page Détails de l'investigation s'ouvre. Cette page contient l'analyse complète de Gemini, qui est organisée dans les sections suivantes :
- Problème : section réduite contenant les détails renseignés automatiquement sur le job en cours d'examen.
- Observations pertinentes : section réduite qui liste les points de données clés et les anomalies détectées par Gemini lors de l'analyse des journaux et des métriques.
- Hypothèses : il s'agit de la section principale, qui est développée par défaut.
Il présente une liste des causes potentielles du problème observé. Chaque hypothèse inclut les éléments suivants :
- Présentation : description de la cause possible, par exemple "Temps d'écriture du shuffle élevé et déséquilibre potentiel des tâches".
- Solutions recommandées : liste d'étapes concrètes à suivre pour résoudre le problème potentiel.
Intervenir
Après avoir examiné les hypothèses et les recommandations :
Appliquez une ou plusieurs des corrections suggérées à la configuration ou au code du job, puis réexécutez le job.
Pour nous indiquer si l'investigation vous a été utile, cliquez sur les icônes J'aime ou Je n'aime pas en haut du panneau.
Examiner et escalader des enquêtes
Pour consulter les résultats d'une investigation précédemment exécutée, cliquez sur le nom de l'investigation sur la page Investigations Cloud Assist pour ouvrir la page Détails de l'investigation.
Si vous avez besoin d'aide supplémentaire, vous pouvez ouvrir une demande d'assistance Google Cloud . Ce processus fournit à l'ingénieur de l'assistance le contexte complet de l'investigation précédemment effectuée, y compris les observations et les hypothèses générées par Gemini. Ce partage de contexte réduit considérablement les échanges nécessaires avec l'équipe d'assistance et permet de résoudre les demandes plus rapidement.
Pour créer une demande d'assistance à partir d'une enquête :
Sur la page Détails de l'enquête, cliquez sur Demander de l'aide.
État et tarifs de l'aperçu
Les investigations Gemini Cloud Assist ne sont pas facturées pendant la version Preview publique. Des frais s'appliqueront à la fonctionnalité lorsqu'elle sera disponible pour tous les utilisateurs.
Pour en savoir plus sur les tarifs après la disponibilité générale, consultez Tarifs de Gemini Cloud Assist.
Interfaces Web Open Source
De nombreux composants Open Source des clusters Dataproc, tels qu'Apache Hadoop et Apache Spark, fournissent des interfaces Web. Ces interfaces peuvent être utilisées pour surveiller les ressources du cluster et les performances des jobs. Par exemple, vous pouvez utiliser l'interface utilisateur du gestionnaire de ressources YARN pour afficher l'allocation des ressources d'application YARN sur un cluster Dataproc.
Serveur d'historique persistant
Les interfaces Web Open Source exécutées sur un cluster sont disponibles lorsque le cluster est en cours d'exécution, mais elles s'arrêtent lorsque vous supprimez le cluster. Pour afficher les données de cluster et de tâches après la suppression d'un cluster, vous pouvez créer un serveur d'historique persistant (PHS).
Exemple : Vous rencontrez une erreur ou un ralentissement de tâche que vous souhaitez analyser. Vous arrêtez ou supprimez le cluster de tâches, puis vous affichez et analysez les données de l'historique des tâches à l'aide de votre PHS.
Une fois que vous avez créé un PHS, vous l'activez sur un cluster Dataproc ou une charge de travail par lotGoogle Cloud Serverless pour Apache Spark lorsque vous créez le cluster ou envoyez la charge de travail par lot. Un serveur d'historique persistant peut accéder aux données d'historique des jobs exécutés sur plusieurs clusters. Vous pouvez ainsi surveiller les jobs d'un projet au lieu de surveiller des interfaces utilisateur distinctes exécutées sur différents clusters.
Journaux Dataproc
Dataproc collecte les journaux générés par Apache Hadoop, Spark, Hive, Zookeeper et d'autres systèmes Open Source exécutés sur vos clusters, puis les envoie à Logging. Ces journaux sont regroupés en fonction de leur source, ce qui vous permet de sélectionner et d'afficher ceux qui vous intéressent. Par exemple, les journaux YARN NodeManager et Spark Executor générés sur un cluster sont étiquetés séparément. Pour en savoir plus sur le contenu et les options des journaux Dataproc, consultez Journaux Dataproc.
Cloud Logging
Logging est un système de gestion des journaux en temps réel entièrement géré. Il fournit un espace de stockage pour les journaux ingérés à partir des services Google Cloud et des outils permettant de rechercher, filtrer et analyser les journaux à grande échelle. Les clusters Dataproc génèrent plusieurs journaux, y compris les journaux de l'agent de service Dataproc, les journaux de démarrage du cluster et les journaux des composants OSS, tels que les journaux YARN NodeManager.
La journalisation est activée par défaut sur les clusters Dataproc et les charges de travail par lot Serverless pour Apache Spark. Les journaux sont exportés régulièrement vers Logging, où ils sont conservés après la suppression du cluster ou la fin de la charge de travail.
Métriques Dataproc
Les métriques de cluster et de job Dataproc, préfixées par dataproc.googleapis.com/
, se composent de données de série temporelle qui fournissent des informations sur les performances d'un cluster, telles que l'utilisation du processeur ou l'état du job. Les métriques personnalisées Dataproc, préfixées par custom.googleapis.com/
, incluent les métriques émises par les systèmes Open Source exécutés sur le cluster, comme la métrique running applications
de YARN. Obtenir des insights sur les métriques Dataproc peut vous aider à configurer efficacement vos clusters. La configuration d'alertes basées sur des métriques peut vous aider à identifier et à résoudre rapidement les problèmes.
Les métriques de cluster et de job Dataproc sont collectées par défaut sans frais. La collecte de métriques personnalisées est facturée aux clients. Vous pouvez activer la collecte de métriques personnalisées lorsque vous créez un cluster. La collecte des métriques Spark de Serverless pour Apache Spark est activée par défaut sur les charges de travail par lot Spark.
Cloud Monitoring
La surveillance utilise les métadonnées et les métriques des clusters, y compris les métriques HDFS, YARN, de tâches et d'opérations, pour offrir une visibilité sur l'état, les performances et la disponibilité des clusters et des tâches Dataproc. Vous pouvez utiliser Monitoring pour explorer des métriques, ajouter des graphiques, créer des tableaux de bord et configurer des alertes.
Explorateur de métriques
Vous pouvez utiliser l'explorateur de métriques pour afficher les métriques Dataproc.
Les métriques de cluster, de job et de traitement par lot Dataproc sans serveur pour Apache Spark sont listées sous les ressources Cloud Dataproc Cluster
, Cloud Dataproc Job
et Cloud Dataproc Batch
. Les métriques personnalisées Dataproc sont listées sous la ressource VM Instances
, catégorie Custom
.
Graphiques
Vous pouvez utiliser l'explorateur de métriques pour créer des graphiques qui visualisent les métriques Dataproc.
Exemple : Vous créez un graphique pour afficher le nombre d'applications Yarn actives exécutées sur vos clusters, puis vous ajoutez un filtre pour sélectionner les métriques visualisées par nom ou région de cluster.
Tableaux de bord
Vous pouvez créer des tableaux de bord pour surveiller les clusters et les jobs Dataproc à l'aide de métriques provenant de plusieurs projets et de différents produits Google Cloud . Vous pouvez créer des tableaux de bord dans la console Google Cloud à partir de la page Aperçu des tableaux de bord en cliquant sur un graphique de la page Explorateur de métriques, puis en le créant et en l'enregistrant.
Alertes
Vous pouvez créer des alertes sur les métriques Dataproc pour être averti rapidement des problèmes liés aux clusters ou aux jobs.
Étapes suivantes
- Découvrez comment résoudre les problèmes liés aux messages d'erreur Dataproc.
- Découvrez comment afficher les données de diagnostic des clusters Dataproc.
- Consultez les questions fréquentes sur Dataproc.