Salida del controlador de trabajos

Puedes enviar, supervisar y controlar con facilidad los trabajos en los clústeres de Cloud Dataproc con la herramienta de línea de comandos de gcloud, Google Cloud Platform Console o la API de REST de Cloud Dataproc. Cuando usas uno de estos mecanismos para enviar tu trabajo, Cloud Dataproc recopila de forma automática el resultado del controlador (consola) de tu trabajo y lo pone a tu disposición. Esto significa que puedes revisar con rapidez el resultado del controlador sin tener que mantener una conexión con el clúster mientras se ejecutan tus trabajos o analizar archivos de registro complicados.

Configuración del registro

De forma predeterminada, Cloud Dataproc usa un nivel de registro predeterminado INFO para los programas de controladores. Esta configuración se puede ajustar con la línea de comandos, que te permite enviar un trabajo con la opción --driver-log-levels.

El paquete root especial controla el nivel del registrador raíz. Por ejemplo:

gcloud dataproc jobs submit hadoop ...\
  --driver-log-levels root=FATAL,com.example=INFO

El registro se puede establecer a un nivel más detallado para cada trabajo. Por ejemplo, para ayudar en la depuración de problemas en la lectura de archivos desde Cloud Storage, puedes enviar un trabajo con la opción --driver-log-levels y especificar el nivel de registro DEBUG de la siguiente manera:

gcloud dataproc jobs submit hadoop ...\
  --driver-log-levels com.google.cloud.hadoop.gcsio=DEBUG

Accede al resultado del controlador del trabajo

Puedes acceder al resultado del controlador del trabajo de Cloud Dataproc con GCP Console, la herramienta de línea de comandos de gcloud o Cloud Storage.

Comando de gcloud

Cuando envías un trabajo con el comando gcloud dataproc jobs submit, el resultado del controlador del trabajo se muestra en la consola. Puedes “reunificar” el resultado del controlador más adelante, en una computadora diferente o en una nueva ventana si pasas el ID de tu trabajo al comando gcloud dataproc jobs wait. El ID del trabajo es un GUID, como 5c1754a5-34f7-4553-b667-8a1199cb9cab. A continuación, se muestra un ejemplo.

gcloud dataproc jobs wait 5c1754a5-34f7-4553-b667-8a1199cb9cab
Waiting for job output...
... INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.2-hadoop2
... 16:47:45 INFO client.RMProxy: Connecting to ResourceManager at my-test-cluster-m/
...

Console

GCP Console te permite ver el resultado del controlador de un trabajo en tiempo real. Para ver el resultado de un trabajo, dirígete a la sección Jobs (Trabajos) de Cloud Dataproc de tu proyecto y haz clic en Job ID (ID del trabajo).

Si el trabajo está en ejecución, el resultado se actualiza de forma periódica con contenido nuevo.

Cloud Storage

Cuando creas un clúster de Cloud Dataproc, puedes especificar un depósito de Cloud Storage para usar con el clúster. El resultado del controlador del trabajo se guarda en este depósito.

Cloud Dataproc usa una estructura de carpetas definida para los depósitos de Cloud Storage adjuntos a los clústeres. Cloud Dataproc también admite adjuntar más de un clúster a un depósito de Cloud Storage. Se usa la siguiente estructura de carpetas para guardar el resultado del controlador del trabajo en Cloud Storage:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Puedes navegar a un clúster y un trabajo en GCP Console a fin de ver el resultado del controlador para ese trabajo en Cloud Storage.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.