Guia de início rápido sobre como usar a ferramenta de linha de comando gcloud

Nesta página, mostramos como usar a ferramenta de linha de comando gcloud do SDK do Google Cloud para criar um cluster do Google Cloud Dataproc, executar um job Apache Spark simples no cluster e modificar o número de trabalhos no cluster.

Saiba como realizar essas tarefas com os Guias de início rápido sobre como usar o API Explorer e o Console do Google Cloud Platform no Guia de início rápido sobre como usar o Console.

Antes de começar

  1. Faça login na sua Conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do GCP, na página do seletor de projetos, selecione ou crie um projeto do GCP.

    Acesse a página do seletor de projetos

  3. Verifique se o faturamento foi ativado no projeto do Google Cloud Platform. Saiba como confirmar que o faturamento está ativado para seu projeto.

  4. Ative a(s) Cloud Dataproc API necessária(s).

    Ativar a(s) API

Criar um cluster

Execute o comando a seguir para criar o cluster example-cluster com as configurações padrão do Cloud Dataproc:

gcloud dataproc clusters create example-cluster
...
Waiting for cluster creation operation...done.
Created [... example-cluster]

O valor padrão da sinalização --region é global. Este é um endpoint de várias regiões especial capaz de implantar instâncias em qualquer zona do Compute Engine especificada pelo usuário. Também especifique regiões distintas, como us-east1 ou europe-west1, para isolar recursos, inclusive instâncias de VM e do Cloud Storage, e locais para armazenamento de metadados utilizados pelo Cloud Dataproc dentro da região especificada pelo usuário. Consulte Endpoints regionais para saber mais sobre a diferença entre os endpoints globais e regionais. Consulte informações sobre a seleção de uma região em Regiões e zonas disponíveis. Também execute o comando gcloud compute regions list para ver uma listagem de regiões disponíveis.

Enviar um job

Para enviar um job Spark de exemplo que calcula um valor aproximado para pi, execute o seguinte comando:

gcloud dataproc jobs submit spark --cluster example-cluster \
  --class org.apache.spark.examples.SparkPi \
  --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

Esse comando especifica:

  • que você quer executar um job spark no cluster example-cluster;
  • class contendo o método principal do aplicativo de cálculo de pi do job;
  • o local do arquivo jar contendo o código do job;
  • todos os parâmetros que você quer passar para o job. Neste caso, o número de tarefas, que é 1000.

A execução do job e os resultados finais são exibidos na janela do terminal:

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

Atualizar um cluster

Para alterar o número de trabalhos do cluster para cinco, execute o seguinte comando:

gcloud dataproc clusters update example-cluster --num-workers 5

Os dados atualizados do cluster são exibidos na saída do comando:

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

É possível usar o mesmo comando para reduzir o número de nós de trabalho ao valor original:

gcloud dataproc clusters update example-cluster --num-workers 2

Limpar

Para evitar cobranças na conta do GCP pelo uso de recursos neste guia de início rápido:

  1. Execute clusters delete para excluir o cluster de exemplo.
    gcloud dataproc clusters delete example-cluster
    Você será solicitado a confirmar se quer excluir o cluster. Digite y para concluir a exclusão.
  2. Use o comando a seguir para remover também todos os intervalos do Cloud Storage criados pelo cluster:
    gsutil rm gs://bucket/subdir/**

Próximas etapas