Criar um cluster do Dataproc usando o Console do Cloud
Nesta página, mostramos como usar o Console do Google Cloud para criar um cluster do Dataproc, executar um job básico do Apache Spark e modificar o número de workers no cluster.
Antes de começar
- Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Dataproc.
-
No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se a cobrança está ativada para o seu projeto do Google Cloud.
-
Ative a API Dataproc.
Crie um cluster
No Console do Cloud, acesse a página Clusters do Dataproc.
Clique em Criar cluster.
No campo Nome do cluster, insira
example-cluster
.Nas listas Região e Zona, selecione uma região e uma zona.
É possível selecionar uma região específica (por exemplo,
us-east1
oueurope-west1
) para isolar recursos, como instâncias de máquina virtual (VM) e locais de armazenamento de metadados e do Cloud Storage, que são utilizados pelo Dataproc na região especificada. Também é possível selecionarglobal
, que é um endpoint multirregional especial que é capaz de implantar instâncias em qualquer zona do Compute Engine especificada pelo usuário. Para mais informações, consulte Regiões e zonas disponíveis e Endpoints regionais.Para todas as outras opções, use as configurações padrão.
Para criar o cluster, clique em Criar.
Seu novo cluster aparece em uma lista na página Clusters. O status é Provisioning até que o cluster esteja pronto para uso e o status muda para Em execução. O provisionamento do cluster pode levar alguns minutos.
Enviar um job do Spark
Enviar um job do Spark que estima um valor de Pi:
- No menu de navegação do Dataproc, clique em Jobs.
Na página Jobs, clique em
Enviar job e faça o seguinte:- No campo Cluster, clique em Procurar.
- Na linha que contém
example-cluster
, clique em Selecionar. - No campo ID do job, use a configuração padrão ou forneça um ID exclusivo para seu projeto do Google Cloud.
- Em Tipo de job, selecione Spark.
- No campo Classe principal ou jar, digite
org.apache.spark.examples.SparkPi
. - No campo Arquivos Jar, insira
file:///usr/lib/spark/examples/jars/spark-examples.jar
. No campo Argumentos, digite
1000
para definir o número de tarefas.Clique em Enviar.
Seu job é exibido na página Detalhes do job. O status do job é Em execução ou Iniciando e ele muda para Concluído após o envio.
Para evitar a rolagem na saída, clique em Quebra de linha: desativado. A saída é semelhante a esta:
Pi is roughly 3.1416759514167594
Para visualizar os detalhes do job, clique na guia Configuration.
Atualize um cluster
Atualize o cluster alterando o número de instâncias de worker:
- No menu de navegação, clique em Clusters.
- Na lista de clusters, clique em
example-cluster
. Na página Detalhes do cluster, clique na guia Configuração.
As configurações do cluster serão exibidas.
Clique em
Editar.No campo Nós de trabalho, insira
5
.Clique em Salvar.
Seu cluster foi atualizado. Para diminuir o número de nós de trabalho ao valor original, siga o mesmo procedimento.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados nesta página, siga estas etapas:
- Na página Detalhes do cluster de
example-cluster
, clique em Excluir para excluir o cluster. - Para confirmar a exclusão do cluster, clique em Excluir.
A seguir
- Teste este guia de início rápido usando outras ferramentas:
- Saiba como criar regras de firewall robustas ao criar um projeto.
- Aprenda a escrever e executar um job do Scala.
- Saiba como usar o Dataproc Hub para executar um notebook do Jupyter no Dataproc.