Saída do driver do job

Envie, monitore e controle facilmente os jobs nos clusters do Cloud Dataproc com a ferramenta de linha de comando gcloud, o Console do Google Cloud Platform ou a API REST do Cloud Dataproc. Quando você usa um desses mecanismos para enviar o job, o Cloud Dataproc reúne automaticamente a saída do driver (console) do job e a disponibiliza para você. Isso significa que é possível analisar rapidamente a saída do driver sem a necessidade de manter uma conexão com o cluster enquanto os jobs são executados ou de conferir arquivos de registro complexos.

Configurar o registro

Por padrão, o Cloud Dataproc usa um nível de geração de registros padrão de INFO para programas de driver. Essa configuração pode ser ajustada quando se usa a linha de comando. Isso permite enviar um job com a opção --driver-log-levels.

O pacote root especial controla o nível raiz do logger. Por exemplo:

gcloud dataproc jobs submit hadoop ...\
  --driver-log-levels root=FATAL,com.example=INFO

O registro pode ser definido em um nível mais granular para cada job. Por exemplo, para ajudar na depuração de problemas durante a leitura de arquivos do Cloud Storage, envie um job com a opção --driver-log-levels, especificando o nível de registro DEBUG como a seguir:

gcloud dataproc jobs submit hadoop ...\
  --driver-log-levels com.google.cloud.hadoop.gcsio=DEBUG

Acessar a saída do driver do job

É possível acessar a saída do driver de job do Cloud Dataproc por meio do Console do GCP, da ferramenta de linha de comando gcloud ou do Cloud Storage.

Comando gcloud

Quando um job é enviado com o comando gcloud dataproc jobs submit, a saída do driver do job é exibida no console. É possível "reingressar" na saída do driver posteriormente, em outro computador ou em uma nova janela, passando o código do job para o comando gcloud dataproc jobs wait. O código do job é um GUID, como 5c1754a5-34f7-4553-b667-8a1199cb9cab. Veja um exemplo:

gcloud dataproc jobs wait 5c1754a5-34f7-4553-b667-8a1199cb9cab
Waiting for job output...
... INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.2-hadoop2
... 16:47:45 INFO client.RMProxy: Connecting to ResourceManager at my-test-cluster-m/
...

Console

Com o Console do GCP, é possível ver a saída do driver de um job em tempo real. Para isso, acesse a seção Jobs do Cloud Dataproc do projeto e clique no código do job.

Se o job estiver em execução, a saída será atualizada periodicamente com conteúdo novo.

Cloud Storage

Ao criar um cluster do Cloud Dataproc, você pode especificar um intervalo do Cloud Storage para usar com o cluster. A saída do driver do job é salva nesse intervalo.

O Cloud Dataproc usa uma estrutura de pastas definida para intervalos do Cloud Storage anexados aos clusters. O Cloud Dataproc também permite anexar mais de um cluster a um intervalo do Cloud Storage. A estrutura de pastas usada para salvar a saída do driver do job no Cloud Storage é:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Para ver a saída do driver de um job no Cloud Storage, navegue para um cluster e um job no console do GCP.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Cloud Dataproc
Precisa de ajuda? Acesse nossa página de suporte.