Esta página foi traduzida pela API Cloud Translation.

Crie um cluster do Dataproc através da Google Cloud consola

Esta página mostra como usar a Google Cloud consola para criar um cluster do Dataproc, executar uma tarefa básica do Apache Spark no cluster e, em seguida, modificar o número de trabalhadores no cluster.

Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:

Visita guiada

Antes de começar

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Dataproc API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Crie um cluster

Na Google Cloud consola, aceda à página Dataproc Clusters.

Aceda a Clusters
Clique em Criar cluster.
Na caixa de diálogo Criar cluster do Dataproc, clique em Criar na linha Cluster no Compute Engine.
No campo Nome do cluster, introduza example-cluster.
Nas listas Região e Zona, selecione uma região e uma zona.

Selecione uma região (por exemplo, us-east1 ou europe-west1) para isolar recursos, como instâncias de máquinas virtuais (VMs) e localizações de armazenamento do Cloud Storage e de metadados que são usadas pelo Dataproc na região. Para mais informações, consulte Regiões e zonas disponíveis e Endpoints regionais.
Para todas as outras opções, use as predefinições.
Para criar o cluster, clique em Criar.

O novo cluster é apresentado numa lista na página Clusters. O estado é Aprovisionamento até o cluster estar pronto a usar e, em seguida, o estado muda para Em execução. O aprovisionamento do cluster pode demorar alguns minutos.

Envie uma tarefa do Spark

Envie uma tarefa do Spark que estime um valor de Pi:

No menu de navegação do Dataproc, clique em Tarefas.
Na página Tarefas, clique em Enviar tarefa e, de seguida, faça o seguinte:
1. No campo ID da tarefa, use a predefinição ou indique um ID que seja exclusivo do seu Google Cloud projeto.
2. No menu pendente Cluster, selecione example-cluster.
3. Em Tipo de serviço, selecione Spark.
4. No campo Main class or jar, introduza org.apache.spark.examples.SparkPi.
5. No campo Ficheiros JAR, introduza file:///usr/lib/spark/examples/jars/spark-examples.jar.
6. No campo Arguments, introduza 1000 para definir o número de tarefas.
  
  Nota: a tarefa do Spark estima o Pi através do método de Monte Carlo. Gera pontos x e y num plano de coordenadas que modela um círculo delimitado por um quadrado unitário. O argumento de entrada (1000) determina o número de pares x-y a gerar. Quanto mais pares forem gerados, maior é a precisão da estimativa. Esta estimativa usa nós de trabalho do Dataproc para paralelizar a computação. Para mais informações, consulte os artigos Estimating Pi using the Monte Carlo Method e JavaSparkPi.java no GitHub.
7. Clique em Enviar.
  
  O seu trabalho é apresentado na página Detalhes do trabalho. O estado da tarefa é Em execução ou A iniciar e, em seguida, muda para Concluído após o envio.
  
  Para evitar deslocar a saída, clique em Quebra de linha: desativada. A saída é semelhante à seguinte:
```
Pi is roughly 3.1416759514167594
```
  Para ver os detalhes da tarefa, clique no separador Configuração.

Atualize um cluster

Atualize o cluster alterando o número de instâncias de trabalho:

No menu de navegação do Dataproc, clique em Clusters.
Na lista de clusters, clique em example-cluster.
Na página Detalhes do cluster, clique no separador Configuração.

São apresentadas as definições do cluster.
Clique em Editar.
No campo Nós de trabalho, introduza 5.
Clique em Guardar.

O seu cluster está agora atualizado. Para diminuir o número de nós de trabalho para o valor original, siga o mesmo procedimento.

Limpar

Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.

Para eliminar o cluster, na página Detalhes do cluster de example-cluster, clique em Eliminar.
Para confirmar que quer eliminar o cluster, clique em Eliminar.

O que se segue?

Experimente este guia de início rápido com outras ferramentas:
- Use o Explorador de APIs.
- Use a CLI do Google Cloud.
Saiba como criar regras de firewall robustas quando cria um projeto.
Saiba como escrever e executar uma tarefa Spark Scala.