Buckets temporários do preparo do Dataproc

Por padrão, quando você cria um cluster, o Dataproc cria um preparo do Cloud Storage e um bucket temporário do Cloud Storage no projeto ou reutiliza os buckets de preparo e temporários criados pelo Dataproc. de solicitações de criação de clusters anteriores.

  • Intervalo de preparação: usado para preparar dependências de jobs de cluster, saída do driver de jobs e arquivos de configuração de cluster. Também recebe resultados do comando gcloud dataproc clusters diagnose do SDK do Cloud.

  • Bucket temporário: usado para armazenar dados temporários de clusters e jobs, como os arquivos de histórico do Spark e do MapReduce.

Se você não especificar um bucket temporário de ot, o Dataproc definirá um Local do Cloud Storage nos EUA, ASIA ou UE para os buckets de preparo e temporários do cluster, de acordo com a zona do Compute Engine em que o cluster foi implantado e, em seguida, cria e gerencia esses buckets por local no nível do projeto. Os buckets de preparação e temporários criados pelo Dataproc são compartilhados entre clusters na mesma região. Por padrão, o bucket temporário tem um TTL de 90 dias.

Em vez de depender da criação de um bucket de preparo padrão e temporário, especifique os buckets atuais do Cloud Storage que o Dataproc usará como o bucket de preparo e temporário do cluster.

Comando gcloud

Execute o comando gcloud dataproc clusters create com as sinalizações --bucket e/ou --temp-bucket localmente em uma janela do terminal ou no Cloud Shell para especificar o bucket de preparo e/ou temporário do cluster.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --bucket=bucket-name \
    --temp-bucket=bucket-name \
    other args ...

API REST

Use os campos ClusterConfig.configBucket e ClusterConfig.tempBucket em um clusters.create para especificar os buckets de preparo e temporários do cluster.

Console

Use o campo Cloud Storage staging bucket no painel Criar um cluster→Opções avançadas do Console do Google Cloud para especificar ou selecionar o bucket de preparo do cluster.

Observação: no momento, não é possível especificar um bucket temporário usando o Console do Cloud.

O Dataproc usa uma estrutura de pastas definida para os buckets do Cloud Storage anexados aos clusters. O Dataproc também permite anexar mais de um cluster a um bucket do Cloud Storage. A estrutura de pastas usada para salvar a saída do driver do job no Cloud Storage é:

cloud-storage-bucket-name
  - google-cloud-dataproc-metainfo
    - list of cluster IDs
        - list of job IDs
          - list of output logs for a job

Use a ferramenta de linha de comando gcloud, a API Dataproc ou o Console do Google Cloud para listar o nome dos buckets temporários e de preparo de um cluster.

Comando gcloud

Execute o comando gcloud dataproc clusters describe localmente em uma janela de terminal ou no Cloud Shell. Os buckets de preparo e temporários associados ao cluster são listados na saída.

gcloud dataproc clusters describe cluster-name \
    --region=region \
...
clusterName: cluster-name
clusterUuid: daa40b3f-5ff5-4e89-9bf1-bcbfec ...
config:
    configBucket: dataproc-...
    ...
    tempBucket: dataproc-temp...

API REST

Chame clusters.get para listar os detalhes do cluster, incluindo o nome dos buckets temporários e de preparo do cluster.

{
 "projectId": "vigilant-sunup-163401",
 "clusterName": "cluster-name",
 "config": {
  "configBucket": "dataproc-...",
...
  "tempBucket": "dataproc-temp-...",
}

Console

Veja os detalhes do cluster, incluindo o nome do bucket de preparo do cluster, no Console do Cloud.

Observação: no momento, não é possível exibir o bucket no console.