Crie um cluster do Dataproc através da Google Cloud consola
Esta página mostra como usar a Google Cloud consola para criar um cluster do Dataproc, executar uma tarefa básica do Apache Spark no cluster e, em seguida, modificar o número de trabalhadores no cluster.
Para seguir orientações passo a passo para esta tarefa diretamente na Google Cloud consola, clique em Orientar-me:
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles.
Crie um cluster
Na Google Cloud consola, aceda à página Dataproc Clusters.
Clique em Criar cluster.
Na caixa de diálogo Criar cluster do Dataproc, clique em Criar na linha Cluster no Compute Engine.
No campo Nome do cluster, introduza
example-cluster
.Nas listas Região e Zona, selecione uma região e uma zona.
Selecione uma região (por exemplo,
us-east1
oueurope-west1
) para isolar recursos, como instâncias de máquinas virtuais (VMs) e localizações de armazenamento do Cloud Storage e de metadados que são usadas pelo Dataproc na região. Para mais informações, consulte Regiões e zonas disponíveis e Endpoints regionais.Para todas as outras opções, use as predefinições.
Para criar o cluster, clique em Criar.
O novo cluster é apresentado numa lista na página Clusters. O estado é Aprovisionamento até o cluster estar pronto a usar e, em seguida, o estado muda para Em execução. O aprovisionamento do cluster pode demorar alguns minutos.
Envie uma tarefa do Spark
Envie uma tarefa do Spark que estime um valor de Pi:
- No menu de navegação do Dataproc, clique em Tarefas.
Na página Tarefas, clique em
Enviar tarefa e, de seguida, faça o seguinte:- No campo ID da tarefa, use a predefinição ou indique um ID que seja exclusivo do seu Google Cloud projeto.
- No menu pendente Cluster, selecione
example-cluster
. - Em Tipo de serviço, selecione Spark.
- No campo Main class or jar, introduza
org.apache.spark.examples.SparkPi
. - No campo Ficheiros JAR, introduza
file:///usr/lib/spark/examples/jars/spark-examples.jar
. No campo Arguments, introduza
1000
para definir o número de tarefas.Clique em Enviar.
O seu trabalho é apresentado na página Detalhes do trabalho. O estado da tarefa é Em execução ou A iniciar e, em seguida, muda para Concluído após o envio.
Para evitar deslocar a saída, clique em Quebra de linha: desativada. A saída é semelhante à seguinte:
Pi is roughly 3.1416759514167594
Para ver os detalhes da tarefa, clique no separador Configuração.
Atualize um cluster
Atualize o cluster alterando o número de instâncias de trabalho:
- No menu de navegação do Dataproc, clique em Clusters.
- Na lista de clusters, clique em
example-cluster
. Na página Detalhes do cluster, clique no separador Configuração.
São apresentadas as definições do cluster.
Clique em
Editar.No campo Nós de trabalho, introduza
5
.Clique em Guardar.
O seu cluster está agora atualizado. Para diminuir o número de nós de trabalho para o valor original, siga o mesmo procedimento.
Limpar
Para evitar incorrer em cobranças na sua Google Cloud conta pelos recursos usados nesta página, siga estes passos.
- Para eliminar o cluster, na página Detalhes do cluster de
example-cluster
, clique em Eliminar. - Para confirmar que quer eliminar o cluster, clique em Eliminar.
O que se segue?
- Experimente este guia de início rápido com outras ferramentas:
- Saiba como criar regras de firewall robustas quando cria um projeto.
- Saiba como escrever e executar uma tarefa Spark Scala.