Criar um cluster do Dataproc usando o console do Google Cloud
Nesta página, mostramos como usar o console do Google Cloud para criar um cluster do Dataproc, executar um job básico do Apache Spark (em inglês) no cluster e modificar o número de workers.
Para seguir as instruções detalhadas desta tarefa diretamente no console do Google Cloud, clique em Orientação:
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Dataproc.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Dataproc.
Criar um cluster
No console do Google Cloud, acesse a página Clusters do Dataproc.
Clique em Criar cluster.
Na caixa de diálogo Criar cluster do Dataproc, clique em Criar na linha Cluster no Compute Engine.
No campo Nome do cluster, insira
example-cluster
.Nas listas Região e Zona, selecione uma região e uma zona.
Selecione uma região (por exemplo,
us-east1
oueurope-west1
) para isolar recursos, como instâncias de máquina virtual (VM) e locais de armazenamento de metadados e do Cloud Storage usados pelo Dataproc, na região. Para mais informações, consulte Regiões e zonas disponíveis e Endpoints regionais.Para todas as outras opções, use as configurações padrão.
Para criar o cluster, clique em Criar.
O novo cluster será exibido em uma lista na página Clusters. O status será Provisionando até que o cluster esteja pronto para uso. Depois, ele vai mudar para Em execução. O provisionamento do cluster pode levar alguns minutos.
Enviar um job do Spark
Envie um job do Spark que estime um valor de Pi:
- No menu de navegação do Dataproc, clique em Jobs.
Na página Jobs, clique em
Enviar job e faça o seguinte:- No campo Cluster, clique em Procurar.
- Na linha do
example-cluster
, clique em Selecionar. - No campo ID do job, use a configuração padrão ou forneça um ID exclusivo para seu projeto do Google Cloud.
- Em Job type, selecione Spark.
- No campo Classe principal ou jar, insira
org.apache.spark.examples.SparkPi
. - No campo Jar files, insira
file:///usr/lib/spark/examples/jars/spark-examples.jar
. No campo Arguments, digite
1000
para definir o número de tarefas.Clique em Enviar.
O job é exibido na página Detalhes do job. O status do job é Em execução ou Iniciando. Ele muda para Concluído depois do envio.
Para evitar que a saída seja rolada, clique em Line wrap: off. A saída será semelhante a esta:
Pi is roughly 3.1416759514167594
Para acessar os detalhes do job, clique na guia Configuração.
atualizar um cluster
Atualize o cluster alterando o número de instâncias de worker:
- No menu de navegação, clique em Clusters.
- Na lista de clusters, clique em
example-cluster
. Na página Detalhes do cluster, clique na guia Configuração.
As configurações do cluster serão exibidas.
Clique em
Editar.No campo Nós de trabalho, digite
5
.Clique em Salvar.
Seu cluster foi atualizado. Para diminuir o número de nós de trabalho ao valor original, siga o mesmo procedimento.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas.
- Na página Detalhes do cluster de
example-cluster
, clique em Excluir para excluir o cluster. - Para confirmar que você quer excluir o cluster, clique em Excluir.
A seguir
- Siga este guia de início rápido usando outras ferramentas:
- Saiba como criar regras de firewall robustas ao criar um projeto.
- Aprenda a escrever e executar um job do Spark Scala.