Criar um cluster do Dataproc usando o console do Google Cloud
Nesta página, mostramos como usar o console do Google Cloud para criar um cluster do Dataproc, execute um Apache Spark (em inglês) job no cluster e, em seguida, modificar o número de workers no cluster.
Para seguir as instruções passo a passo desta tarefa diretamente no console do Google Cloud, clique em Orientação:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Enable the Dataproc API.
Crie um cluster
No console do Google Cloud, acesse a página do Dataproc Clusters.
Clique em Criar cluster.
Na caixa de diálogo Criar cluster do Dataproc, clique em Criar no a linha Cluster no Compute Engine.
No campo Nome do cluster, insira
example-cluster
.Nas listas Região e Zona, selecione uma região e uma zona.
Selecione uma região (por exemplo,
us-east1
oueurope-west1
) para isolar recursos, como instâncias de máquina virtual (VM) e Cloud Storage e locais de armazenamento de metadados utilizados pelo Dataproc, na região. Para mais informações, consulte Regiões e zonas disponíveis e Endpoints regionais.Para todas as outras opções, use as configurações padrão.
Para criar o cluster, clique em Criar.
O novo cluster aparece em uma lista na página Clusters. O status é Em Provisionamento até que o cluster esteja pronto para uso, e depois o status muda para Running. O provisionamento do cluster pode levar alguns minutos.
Enviar um job do Spark
Envie um job do Spark que estima um valor de Pi:
- No menu de navegação do Dataproc, clique em Jobs.
Na página Jobs, clique em
Envie o job e execute o seguinte:- No campo Cluster, clique em Procurar.
- Na linha de
example-cluster
, clique em Selecionar. - No campo ID do job, use a configuração padrão ou forneça um ID exclusivo para seu projeto do Google Cloud.
- Em Tipo de job, selecione Spark.
- No campo Classe principal ou jar, digite
org.apache.spark.examples.SparkPi
- No campo Arquivos JAR, insira
file:///usr/lib/spark/examples/jars/spark-examples.jar
. No campo Argumentos, insira
1000
para definir o número de tarefas.Clique em Enviar.
Seu job vai aparecer na página Detalhes do job. O status da tarefa é Em execução ou Iniciando e muda para Concluído depois de em que ele é enviado.
Para evitar a rolagem na saída, clique em Quebra de linha: desativada. O resultado é semelhante ao seguinte:
Pi is roughly 3.1416759514167594
Para ver os detalhes do job, clique na guia Configuração.
Atualize um cluster
Atualize o cluster mudando o número de instâncias de worker:
- No menu de navegação, clique em Clusters.
- Na lista de clusters, clique em
example-cluster
. Na página Detalhes do cluster, clique na guia Configuração.
As configurações do cluster vão aparecer.
Clique em
Editar.No campo Nós de trabalho, digite
5
.Clique em Salvar.
Seu cluster foi atualizado. Para diminuir o número de nós de trabalho para o do valor original, siga o mesmo procedimento.
Limpar
Para evitar cobranças na conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Na página Detalhes do cluster de
example-cluster
, clique em Excluir para excluir o cluster. - Para confirmar que você quer excluir o cluster, clique em Excluir.
A seguir
- Siga este guia de início rápido usando outras ferramentas:
- Saiba como criar regras de firewall robustas ao criar um projeto.
- Aprenda a gravar e executar um job do Spark Scala.