Puedes enviar, supervisar y controlar con facilidad los trabajos en los clústeres de Cloud Dataproc con la herramienta de línea de comandos de gcloud, Google Cloud Platform Console o la API de REST de Cloud Dataproc. Cuando usas uno de estos mecanismos para enviar tu trabajo, Cloud Dataproc recopila de forma automática el resultado del controlador (consola) de tu trabajo y lo pone a tu disposición. Esto significa que puedes revisar con rapidez el resultado del controlador sin tener que mantener una conexión con el clúster mientras se ejecutan tus trabajos o analizar archivos de registro complicados.
Configuración del registro
De forma predeterminada, Cloud Dataproc usa un nivel de registro predeterminado INFO
para los programas de controladores. Esta configuración se puede ajustar con la línea de comandos, que te permite enviar un trabajo con la opción --driver-log-levels
.
El paquete root
especial controla el nivel del registrador raíz. Por ejemplo:
gcloud dataproc jobs submit hadoop ...\
--driver-log-levels root=FATAL,com.example=INFO
El registro se puede establecer a un nivel más detallado para cada trabajo. Por ejemplo, para ayudar en la depuración de problemas en la lectura de archivos desde Cloud Storage, puedes enviar un trabajo con la opción --driver-log-levels
y especificar el nivel de registro DEBUG
de la siguiente manera:
gcloud dataproc jobs submit hadoop ...\
--driver-log-levels com.google.cloud.hadoop.gcsio=DEBUG
Accede al resultado del controlador del trabajo
Puedes acceder al resultado del controlador del trabajo de Cloud Dataproc con GCP Console, la herramienta de línea de comandos de gcloud
o Cloud Storage.
Comando de gcloud
Cuando envías un trabajo con el comando gcloud dataproc jobs submit, el resultado del controlador del trabajo se muestra en la consola. Puedes “reunificar” el resultado del controlador más adelante, en una computadora diferente o en una nueva ventana si pasas el ID de tu trabajo al comando gcloud dataproc jobs wait. El ID del trabajo es un GUID, como 5c1754a5-34f7-4553-b667-8a1199cb9cab
. A continuación, se muestra un ejemplo.
gcloud dataproc jobs wait 5c1754a5-34f7-4553-b667-8a1199cb9cab Waiting for job output... ... INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.2-hadoop2 ... 16:47:45 INFO client.RMProxy: Connecting to ResourceManager at my-test-cluster-m/ ...
Console
GCP Console te permite ver el resultado del controlador de un trabajo en tiempo real. Para ver el resultado de un trabajo, dirígete a la sección Jobs (Trabajos) de Cloud Dataproc de tu proyecto y haz clic en Job ID (ID del trabajo).

Si el trabajo está en ejecución, el resultado se actualiza de forma periódica con contenido nuevo.
Cloud Storage
Cuando creas un clúster de Cloud Dataproc, puedes especificar un depósito de Cloud Storage para usar con el clúster. El resultado del controlador del trabajo se guarda en este depósito.

Cloud Dataproc usa una estructura de carpetas definida para los depósitos de Cloud Storage adjuntos a los clústeres. Cloud Dataproc también admite adjuntar más de un clúster a un depósito de Cloud Storage. Se usa la siguiente estructura de carpetas para guardar el resultado del controlador del trabajo en Cloud Storage:
cloud-storage-bucket-name - google-cloud-dataproc-metainfo - list of cluster IDs - list of job IDs - list of output logs for a job
Puedes navegar a un clúster y un trabajo en GCP Console a fin de ver el resultado del controlador para ese trabajo en Cloud Storage.