Este tutorial inclui um passo a passo do Cloud Shell que usa as bibliotecas cliente do Google Cloud para Python para chamar programaticamente as APIs gRPC do Dataproc para criar um cluster e enviar uma tarefa para o cluster.
As secções seguintes explicam o funcionamento do código do passo a passo contido no repositório GoogleCloudPlatform/python-dataproc do GitHub.
Execute o tutorial do Cloud Shell
Clique em Abrir no Cloud Shell para executar o tutorial passo a passo.
Compreenda o código
Credenciais padrão da aplicação
O passo a passo do Cloud Shell neste tutorial fornece a autenticação através das credenciais do seu projeto Google Cloud . Quando executa código localmente, a prática recomendada é usar credenciais da conta de serviço para autenticar o seu código.
Crie um cluster do Dataproc
Os seguintes valores são definidos para criar o cluster:
- O projeto no qual o cluster vai ser criado
- A região onde o cluster vai ser criado
- O nome do cluster
- A configuração do cluster, que especifica um mestre e dois trabalhadores primários
As predefinições de configuração são usadas para as restantes definições do cluster. Pode substituir as predefinições de configuração do cluster. Por exemplo, pode adicionar VMs secundárias (predefinição = 0) ou especificar uma rede VPC não predefinida para o cluster. Para mais informações, consulte o artigo CreateCluster.
Envie um trabalho
Os seguintes valores são definidos para enviar a tarefa:
- O projeto no qual o cluster vai ser criado
- A região onde o cluster vai ser criado
- A configuração do trabalho, que especifica o nome do cluster e o caminho do ficheiro (URI) do Cloud Storage do trabalho do PySpark
Consulte SubmitJob para mais informações.
Elimine o cluster
Os seguintes valores são definidos para eliminar o cluster:
- O projeto no qual o cluster vai ser criado
- A região onde o cluster vai ser criado
- O nome do cluster
Para mais informações, consulte o artigo DeleteCluster.