Journaux Dataproc

Vous pouvez afficher, rechercher, filtrer et archiver les journaux de tâches et de clusters Dataproc dans Cloud Logging.

Niveaux de journalisation des composants

Définir Spark, Hadoop, Flink et d'autres composants Dataproc les niveaux de journalisation avec la fonction log4j spécifique au composant propriétés du cluster, comme hadoop-log4j, lorsque vous créer un cluster. Les niveaux de journalisation des composants basés sur le cluster s'appliquent aux daemons de service, tels que le ResourceManager YARN, et aux tâches exécutées sur le cluster.

Si les propriétés log4j ne sont pas compatibles avec un composant, tel que le composant Presto, écrivez une action d'initialisation qui modifie le fichier log4j.properties ou log4j2.properties du composant.

Niveaux de journalisation des composants spécifiques à la tâche : vous pouvez également définir des niveaux de journalisation des composants lorsque vous envoyez une tâche. Ces les niveaux de journalisation sont appliqués au job et sont prioritaires par rapport aux niveaux de journalisation définis lors de la création du cluster. Voir Propriétés des clusters et des tâches pour en savoir plus.

Niveaux de journalisation des versions des composants Spark et Hive:

Les composants Spark 3.3.X et Hive 3.X utilisent les propriétés log4j2, tandis que les versions précédentes de ces composants utilisent les propriétés log4j (voir Apache Log4j2). Utilisez un préfixe spark-log4j: pour définir les niveaux de journalisation Spark sur un cluster.

  • Exemple: Image Dataproc version 2.0 avec Spark 3.1 pour définir log4j.logger.org.apache.spark:

    gcloud dataproc clusters create ... \
        --properties spark-log4j:log4j.logger.org.apache.spark=DEBUG
    
  • Exemple : version d'image Dataproc 2.1 avec Spark 3.3 pour définir logger.sparkRoot.level :

    gcloud dataproc clusters create ...\
        --properties spark-log4j:logger.sparkRoot.level=debug
    

Niveaux de journalisation des pilotes de jobs

Dataproc utilise un cluster niveau de journalisation de INFO pour les programmes de pilote d'emploi. Vous pouvez modifier ce paramètre pour un ou plusieurs packages avec l'indicateur --driver-log-levels de la commande gcloud dataproc jobs submit.

Exemple :

Définissez le niveau de journalisation DEBUG lors de l'envoi d'un job Spark qui lit Fichiers Cloud Storage.

gcloud dataproc jobs submit spark ...\
    --driver-log-levels org.apache.spark=DEBUG,com.google.cloud.hadoop.gcsio=DEBUG

Exemple :

Définissez le niveau d'enregistreur root sur WARN et le niveau d'enregistreur com.example sur INFO.

gcloud dataproc jobs submit hadoop ...\
    --driver-log-levels root=WARN,com.example=INFO

Niveaux de journalisation de l'exécuteur Spark

Pour configurer les niveaux de journalisation de l'exécuteur Spark, procédez comme suit:

  1. Préparer un fichier de configuration log4j, puis l'importer dans Cloud Storage

  2. Faites référence à votre fichier de configuration lorsque vous envoyez la tâche.

    Exemple :

    gcloud dataproc jobs submit spark ...\
        --file gs://my-bucket/path/spark-log4j.properties \
        --properties spark.executor.extraJavaOptions=-Dlog4j.configuration=file:spark-log4j.properties
    

Spark télécharge le fichier de propriétés Cloud Storage dans le répertoire de travail local de la tâche, référencé sous le nom file:<name> dans -Dlog4j.configuration.

Journaux de tâches Dataproc dans Logging

Pour savoir comment activer les journaux des pilotes de tâches Dataproc dans Logging, consultez Résultats et journaux des tâches Dataproc.

Accéder aux journaux de tâches dans Logging

Accédez aux journaux de jobs Dataproc à l'aide de la méthode Explorateur de journaux la commande gcloud logging ou l'API Logging.

Console

Journaux du pilote de jobs Dataproc et du conteneur YARN sont répertoriés dans la section Job Cloud Dataproc ressource.

Exemple : Journal du pilote de tâche après l'exécution d'une requête de l'explorateur de journaux avec les sélections suivantes :

  • Ressource : Cloud Dataproc Job
  • Nom du journal : dataproc.job.driver

Exemple : Journal du conteneur YARN après l'exécution d'une requête de l'explorateur de journaux avec les sélections suivantes :

  • Ressource : Cloud Dataproc Job
  • Nom du journal : dataproc.job.yarn.container

gcloud

Vous pouvez lire les entrées de journal de tâches à l'aide de la commande gcloud logging read. Les arguments de la ressource doivent être placés entre guillemets ("..."). La commande suivante filtre les entrées de journal renvoyées à l'aide de libellés de cluster.

gcloud logging read \
    "resource.type=cloud_dataproc_job \
    resource.labels.region=cluster-region \
    resource.labels.job_id=my-job-id"

Exemple de résultat (partiel) :

jsonPayload:
  class: org.apache.hadoop.hdfs.StateChange
  filename: hadoop-hdfs-namenode-test-dataproc-resize-cluster-20190410-38an-m-0.log
  ,,,
logName: projects/project-id/logs/hadoop-hdfs-namenode
---
jsonPayload:
  class: SecurityLogger.org.apache.hadoop.security.authorize.ServiceAuthorizationManager
  filename: cluster-name-dataproc-resize-cluster-20190410-38an-m-0.log
  ...
logName: projects/google.com:hadoop-cloud-dev/logs/hadoop-hdfs-namenode

API REST

Vous pouvez utiliser l'API REST Logging pour répertorier les entrées de journal (consultez la page sur entries.list).

Journaux de clusters Dataproc dans Logging

Dataproc exporte les journaux de clusters Apache Hadoop, Spark, Hive et Zookeeper suivants ainsi que d'autres journaux de clusters Dataproc vers Cloud Logging.

Type de journal Nom du journal Description
Journaux de daemons maîtres hadoop-hdfs
hadoop-hdfs-namenode
hadoop-hdfs-secondary namenode
hadoop-hdfs-zkfc
hadoop-yarn-resourcemanager
hadoop-yarn-timelineserver
hive-metastore
hive-server2
mapred-mapred-historyserver
zookeeper
Noeud de journal
Composant NameNode HDFS
Composant NameNode secondaire HDFS
Contrôleur de basculement Zookeeper
Gestionnaire de ressources YARN
YARN Timeline Server
Magasin de métadonnées Hive
Hive Server 2
Serveur d'historique de tâches MapReduce
Serveur Zookeeper
Journaux de daemons de calcul hadoop-hdfs-datanode
hadoop-yarn-nodemanager
Composant DataNode HDFS
Gestionnaire des nœuds YARN
Journaux système autoscaler
google.dataproc.agent
google.dataproc.startup
Journal de l'autoscaler Dataproc
Journal de l'agent Dataproc
Journal des scripts de démarrage Dataproc + journal des actions d'initialisation

Accéder aux journaux du cluster dans Cloud Logging

Vous pouvez accéder aux journaux de cluster Dataproc à l'aide de l'explorateur de journaux, de la commande gcloud logging ou de l'API Logging.

Console

Effectuez les sélections de requête suivantes pour afficher les journaux du cluster dans l'explorateur de journaux :

  • Ressource:Cloud Dataproc Cluster
  • Nom du journal : log name

gcloud

Vous pouvez lire les entrées de journal de clusters à l'aide de la commande gcloud logging read. Les arguments de la ressource doivent être placés entre guillemets ("..."). La commande suivante filtre les entrées de journal renvoyées à l'aide de libellés de cluster.

gcloud logging read <<'EOF'
    "resource.type=cloud_dataproc_cluster
    resource.labels.region=cluster-region
    resource.labels.cluster_name=cluster-name
    resource.labels.cluster_uuid=cluster-uuid"
EOF

Exemple de résultat (partiel) :

jsonPayload:
  class: org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService
  filename: hadoop-yarn-resourcemanager-cluster-name-m.log
  ...
logName: projects/project-id/logs/hadoop-yarn-resourcemanager
---
jsonPayload:
  class: org.apache.hadoop.yarn.server.resourcemanager.ResourceTrackerService
  filename: hadoop-yarn-resourcemanager-component-gateway-cluster-m.log
  ...
logName: projects/project-id/logs/hadoop-yarn-resourcemanager

API REST

Vous pouvez utiliser l'API REST Logging pour répertorier les entrées de journal (consultez la page sur entries.list).

Autorisations

Pour écrire des journaux dans Logging, le compte de service des VM Dataproc doivent disposer du rôle IAM logging.logWriter. Le compte de service Dataproc par défaut détient ce rôle. Si vous utilisez un compte de service personnalisé, vous devez attribuer ce rôle au compte de service.

Protéger les journaux

Par défaut, les journaux Logging sont chiffrés au repos. Vous pouvez activer des clés de chiffrement gérées par le client (CMEK) pour chiffrer les journaux. Pour en savoir plus sur la prise en charge de CMEK, consultez Gérer les clés qui protègent les données du routeur de journaux et Gérer les clés qui protègent les données de stockage de journalisation.

Étape suivante