Esta página foi traduzida pela API Cloud Translation.

Saída e registros de jobs do Dataproc

Quando você envia um job do Dataproc, ele coleta automaticamente a saída do job e a disponibiliza. Isso significa que é possível analisar rapidamente a saída do job sem a necessidade de manter uma conexão com o cluster enquanto os jobs são executados ou de conferir arquivos de registro complexos.

Registros do Spark

Há dois tipos de registros do Spark: registros do driver e do executor. Os registros do driver do Spark contêm a saída do job. Os registros do executor do Spark contêm a saída executável ou de inicialização do job, como uma mensagem spark-submit "Aplicativo xxx enviado", e podem ser úteis para depurar falhas de jobs.

O driver de job do Dataproc, que é diferente do driver do Spark, é um iniciador para muitos tipos de jobs. Ao iniciar jobs do Spark, ele é executado como um wrapper no executável spark-submit, que inicia o driver do Spark. O driver do Spark executa o job no cluster do Dataproc no modo client ou cluster do Spark:

Modo client: o driver do Spark executa o job no processo spark-submit, e os registros do Spark são enviados para o driver de job do Dataproc.
Modo cluster: o driver do Spark executa o job em um contêiner YARN. Os registros do driver do Spark não estão disponíveis para o driver de job do Dataproc.

Visão geral das propriedades de jobs do Dataproc e do Spark

Propriedade	Valor	Padrão	Descrição
`dataproc:dataproc.logging.stackdriver.job.driver.enable`	verdadeiro ou falso	falso	Precisa ser definido no momento da criação do cluster. Quando `true`, a saída do driver do job está no Logging, associada ao recurso do job. Quando `false`, a saída do driver do job não está no Logging. Observação: as seguintes configurações de propriedade do cluster também são necessárias para ativar os registros do driver do job no Logging e são definidas por padrão quando um cluster é criado: `dataproc:dataproc.logging.stackdriver.enable=true` e `dataproc:jobs.file-backed-output.enable=true`
`dataproc:dataproc.logging.stackdriver.job.yarn.container.enable`	verdadeiro ou falso	falso	Precisa ser definido no momento da criação do cluster. Quando `true`, os registros do contêiner do YARN do job são associados ao recurso do job. Quando `false`, os registros do contêiner do YARN do job são associados ao recurso do cluster.
`spark:spark.submit.deployMode`	cliente ou cluster	cliente	Controla o modo `client` ou `cluster` do Spark.

Jobs do Spark enviados usando a API `jobs` do Dataproc

As tabelas desta seção listam o efeito de diferentes configurações de propriedade no destino da saída do driver do job do Dataproc quando os jobs são enviados pela API jobs do Dataproc, que inclui o envio de jobs pelo console do Google Cloud, CLI gcloud e as bibliotecas de cliente do Cloud.

As propriedades do Dataproc e do Spark listadas podem ser definidas com a flag --properties quando um cluster é criado e serão aplicadas a todos os jobs do Spark executados no cluster. As propriedades do Spark também podem ser definidas com a flag --properties (sem o prefixo "spark:") quando um job é enviado para a API jobs do Dataproc e serão aplicadas apenas ao job.

Saída do driver do job do Dataproc

As tabelas a seguir listam o efeito de diferentes configurações de propriedade no destino da saída do job driver do Dataproc.

`dataproc: dataproc.logging.stackdriver.job.driver.enable`	Saída
false (padrão)	Transmitido para o cliente No Cloud Storage, no arquivo `driverOutputResourceUri` gerado pelo Dataproc Não está na geração de registros
verdadeiro	Transmitido para o cliente No Cloud Storage, no arquivo `driverOutputResourceUri` gerado pelo Dataproc No Logging: `dataproc.job.driver` no recurso do job.

Registros do driver do Spark

As tabelas a seguir listam o efeito de diferentes configurações de propriedade no destino dos registros do driver do Spark.

`spark: spark.submit.deployMode`	`dataproc: dataproc.logging.stackdriver.job.driver.enable`	`dataproc: dataproc.logging.stackdriver.job.yarn.container.enable`	Saída do driver
cliente	false (padrão)	verdadeiro ou falso	Transmitido para o cliente No Cloud Storage, no arquivo `driverOutputResourceUri` gerado pelo Dataproc Não está na geração de registros
cliente	verdadeiro	verdadeiro ou falso	Transmitido para o cliente No Cloud Storage, no arquivo `driverOutputResourceUri` gerado pelo Dataproc No Logging: `dataproc.job.driver` no recurso do job
cluster	false (padrão)	falso	Não transmitido para o cliente Não está no Cloud Storage Em Logging `yarn-userlogs` no recurso do cluster
cluster	verdadeiro	verdadeiro	Não transmitido para o cliente Não está no Cloud Storage No Logging: `dataproc.job.yarn.container` no recurso do job

Registros do executor do Spark

As tabelas a seguir listam o efeito de diferentes configurações de propriedade no destino dos registros do executor do Spark.

`dataproc: dataproc.logging.stackdriver.job.yarn.container.enable`	Registro do executor
false (padrão)	No Logging: `yarn-userlogs` no recurso do cluster
verdadeiro	No Logging `dataproc.job.yarn.container`, no recurso do job

Jobs do Spark enviados sem usar a API `jobs` do Dataproc

Esta seção lista o efeito de diferentes configurações de propriedade no destino dos registros de jobs do Spark quando eles são enviados sem usar a API jobs do Dataproc, por exemplo, ao enviar um job diretamente em um nó de cluster usando spark-submit ou ao usar um notebook Jupyter ou Zeppelin. Esses jobs não têm IDs ou drivers de jobs do Dataproc.

Registros do driver do Spark

As tabelas a seguir listam o efeito de diferentes configurações de propriedade no destino dos registros do driver do Spark para trabalhos não enviados pela API jobs do Dataproc.

`spark: spark.submit.deployMode`	Saída do driver
cliente	Transmitido para o cliente Não está no Cloud Storage Não está na geração de registros
cluster	Não transmitido para o cliente Não está no Cloud Storage Em Logging `yarn-userlogs` no recurso do cluster

Registros do executor do Spark

Quando os jobs do Spark não são enviados pela API jobs do Dataproc, os registros do executor estão em Logging yarn-userlogs no recurso do cluster.

Conferir a saída do job

É possível acessar a saída do job do Dataproc no console do Google Cloud, na CLI gcloud, no Cloud Storage ou no Logging.

Console

Para conferir a saída do job, acesse a seção Jobs do Dataproc do projeto e clique no ID do job.

Se o job estiver em execução, a saída será atualizada periodicamente com novo conteúdo.

Comando gcloud

Quando um job é enviado com o comando gcloud dataproc jobs submit, a saída do job é exibida no console. É possível "reingressar" na saída mais tarde, em outro computador ou em uma nova janela, passando o ID do job para o comando gcloud dataproc jobs wait. O código do job é um GUID, como 5c1754a5-34f7-4553-b667-8a1199cb9cab. Aqui está um exemplo:

gcloud dataproc jobs wait 5c1754a5-34f7-4553-b667-8a1199cb9cab \
    --project my-project-id --region my-cluster-region

Waiting for job output...
... INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.2-hadoop2
... 16:47:45 INFO client.RMProxy: Connecting to ResourceManager at my-test-cluster-m/
...

Cloud Storage

A saída do job é armazenada no Cloud Storage no bucket de preparação ou no bucket especificado quando você criou o cluster. Um link para a saída do job no Cloud Storage é fornecido no campo Job.driverOutputResourceUri retornado por:

uma solicitação de API jobs.get.

um comando gcloud dataproc jobs describe job-id.

$ gcloud dataproc jobs describe spark-pi
...
driverOutputResourceUri: gs://dataproc-nnn/jobs/spark-pi/driveroutput
...

Geração de registros

Consulte Registros do Dataproc para saber como visualizar a saída do job do Dataproc no Logging.

Saída e registros de jobs do Dataproc

Registros do Spark

Visão geral das propriedades de jobs do Dataproc e do Spark

Jobs do Spark enviados usando a API jobs do Dataproc

Saída do driver do job do Dataproc

Registros do driver do Spark

Registros do executor do Spark

Jobs do Spark enviados sem usar a API jobs do Dataproc

Registros do driver do Spark

Registros do executor do Spark

Conferir a saída do job

Console

Comando gcloud

Cloud Storage

Geração de registros

Jobs do Spark enviados usando a API `jobs` do Dataproc

Jobs do Spark enviados sem usar a API `jobs` do Dataproc