Job-Treiberausgabe

Mit dem gcloud-Befehlszeilentool, der Google Cloud Console oder der Cloud Dataproc REST API können Sie Jobs in Dataproc-Clustern einfach senden, beobachten und steuern. Wenn Sie einen dieser Mechanismen zum Senden des Jobs verwenden, erfasst Cloud Dataproc automatisch die Treiberausgabe (Konsole) des Jobs und stellt sie Ihnen zur Verfügung. Sie können die Treiberausgabe also schnell prüfen, ohne eine Verbindung zum Cluster beibehalten zu müssen, wenn Jobs ausgeführt oder komplizierte Logdateien analysiert werden.

Logs konfigurieren

Cloud Dataproc verwendet standardmäßig die Standard-Logging-Ebene INFO für Treiberprogramme. Diese Einstellung kann bei Verwendung der Befehlszeile angepasst werden, sodass Sie einen Job mit der Option --driver-log-levels einreichen können.

Das spezielle root-Paket steuert die Ebene des Root-Loggers. Beispiel:

gcloud dataproc jobs submit hadoop ...\
      --driver-log-levels root=FATAL,com.example=INFO
    

Für jeden Job kann ein detailliertes Logging eingestellt werden. Um beispielsweise Debugging-Probleme beim Lesen von Dateien aus Cloud Storage zu unterstützen, können Sie einen Job mit der Option --driver-log-levels unter Angabe der Logebene DEBUG so einreichen:

gcloud dataproc jobs submit hadoop ...\
      --driver-log-levels com.google.cloud.hadoop.gcsio=DEBUG
    

Auf die Treiberausgabe eines Jobs zugreifen

Sie können auf die Cloud Dataproc-Jobtreiber-Ausgabe mit der Cloud Console, dem gcloud-Befehlszeilentool oder Cloud Storage zugreifen.

gcloud-Befehl

Wenn Sie einen Job mit dem Befehl gcloud dataproc jobs submit senden, wird die Treiberausgabe des Jobs in der Konsole angezeigt. Sie können die Treiberausgabe später auf einem anderen Computer oder in einem neuen Fenster wieder aufrufen, indem Sie die ID des Jobs an den Befehl gcloud dataproc jobs wait übergeben. Die Job-ID ist eine GUID wie z. B. 5c1754a5-34f7-4553-b667-8a1199cb9cab . Hier ein Beispiel:

    gcloud dataproc jobs wait 5c1754a5-34f7-4553-b667-8a1199cb9cab \
        --project my-project-id --region my-cluster-region
    
    Waiting for job output...
    ... INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.2-hadoop2
    ... 16:47:45 INFO client.RMProxy: Connecting to ResourceManager at my-test-cluster-m/
    ...
    

Console

Zum Aufrufen der Job-Treiberausgabe rufen Sie den Dataproc-Abschnitt Jobs für Ihr Projekt auf und klicken auf die Job-ID.

Während der Ausführung des Jobs wird die Job-Treiberausgabe regelmäßig mit neuen Inhalten aktualisiert.

cl

Die Job-Treiberausgabe wird in Cloud Storage entweder im Staging-Bucket oder in dem Bucket gespeichert, den Sie beim Erstellen des Clusters angegeben haben. Ein Link zur Job-Treiberausgabe in Cloud Storage wird im Feld Job.driverOutputResourceUri bereitgestellt. Dieses erhalten Sie über:

  • Eine API-Anfrage des Typs jobs.get
  • Einen Befehl des Typs gcloud dataproc jobs describe job-id
    $ gcloud dataproc jobs describe spark-pi
        ...
        driverOutputResourceUri: gs://dataproc-nnn/jobs/spark-pi/driveroutput
        ...