Criar um cluster do Dataproc usando bibliotecas de cliente
O código de exemplo abaixo mostra como usar as Bibliotecas de cliente do Cloud para criar um cluster do Dataproc, executar um job no cluster e excluir o cluster.
Também é possível realizar essas tarefas usando:
- Solicitações da API REST em Guia de início rápido: como usar o API Explorer
- o console Google Cloud em Criar um cluster do Dataproc usando o console Google Cloud
- a Google Cloud CLI em Criar um cluster do Dataproc usando a Google Cloud CLI
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataproc API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Instalar a biblioteca de cliente Para saber mais, consulte Como configurar seu ambiente de desenvolvimento.
- Configurar a autenticação
- Clone e execute o código de amostra do GitHub.
- Veja o resultado. O código gera o registro do driver do job para o
bucket de preparo
padrão do Dataproc
no Cloud Storage. Veja a saída do driver do job no console Google Cloud
na seção
Jobs
do Dataproc do seu projeto. Clique no ID do job para ver a saída do job na
página Detalhes do job.
- Instalar a biblioteca de cliente Para saber mais, consulte Como configurar um ambiente de desenvolvimento do Java.
- Configurar a autenticação
- Clone e execute o código de amostra do GitHub.
- Veja o resultado. O código gera o registro do driver do job para o
bucket de preparo
padrão do Dataproc
no Cloud Storage. Veja a saída do driver do job no console Google Cloud
na seção
Jobs
do Dataproc do seu projeto. Clique no ID do job para ver a saída do job na
página Detalhes do job.
- Instalar a biblioteca de cliente Para saber mais, consulte Como configurar um ambiente de desenvolvimento Node.js.
- Configurar a autenticação
- Clone e execute o código de amostra do GitHub.
- Veja o resultado. O código gera o registro do driver do job para o
bucket de preparo
padrão do Dataproc
no Cloud Storage. Veja a saída do driver do job no console Google Cloud
na seção
Jobs
do Dataproc do seu projeto. Clique no ID do job para ver a saída do job na
página Detalhes do job.
- Instalar a biblioteca de cliente Para saber mais, consulte Como configurar um ambiente de desenvolvimento do Python.
- Configurar a autenticação
- Clone e execute o código de amostra do GitHub.
- Veja o resultado. O código gera o registro do driver do job para o
bucket de preparo
padrão do Dataproc
no Cloud Storage. Veja a saída do driver do job no console Google Cloud
na seção
Jobs
do Dataproc do seu projeto. Clique no ID do job para ver a saída do job na
página Detalhes do job.
- Consulte Recursos adicionais da biblioteca de cliente do Cloud Dataproc.
Executar o código
Faça o tutorial:clique em Abrir no Cloud Shell para executar um tutorial das bibliotecas de cliente do Cloud para Python que cria um cluster, executa um job do PySpark e exclui o cluster.