Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.
Guia de início rápido: criar um cluster do Dataproc usando a CLI gcloud

Criar um cluster do Dataproc usando a CLI gcloud

Nesta página, mostramos como usar a ferramenta de linha de comando gcloud da CLI do Google Cloud para criar um cluster do Google Cloud Dataproc, executar um job simples do Apache Spark e modificar o número de workers no cluster.

Veja como fazer as mesmas tarefas ou tarefas semelhantes com o Guias de início rápido sobre como usar o API Explorer, o Console do Google Cloud em Guia de início rápido sobre como usar o Console e usando as bibliotecas de cliente em Guia de início rápido: como usar bibliotecas de cliente do Google Cloud.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  4. Ative a API Dataproc.

    Ative a API

  5. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  6. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como verificar se o faturamento está ativado em um projeto.

  7. Ative a API Dataproc.

    Ative a API

Crie um cluster

Execute o seguinte comando para criar um cluster chamado example-cluster. Consulte Regiões e zonas disponíveis para informações sobre como selecionar uma região (você também pode executar o comando gcloud compute regions list para ver uma lista de regiões disponíveis). Veja também Endpoints regionais para saber mais sobre a diferença entre global e endpoints regionais.

gcloud dataproc clusters create example-cluster --region=region

A criação do cluster é confirmada na saída do comando:

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

Envie um job

Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica:

  • Você quer executar um job spark no cluster example-cluster na região especificada
  • O class que contém o método principal do aplicativo de cálculo de pi do job
  • O local do arquivo jar contendo o código do job
  • todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

A execução do job e os resultados finais são exibidos na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

Os dados atualizados do cluster são exibidos na saída do comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas:

  • Execute clusters delete para excluir o cluster de exemplo.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    Você será solicitado a confirmar se quer excluir o cluster. Digite y para concluir a exclusão.

A seguir