Este tutorial inclui um walkthrough do Cloud Shell que usa as bibliotecas de cliente do Google Cloud para Python para chamar programaticamente APIs gRPC do Dataproc para criar um cluster e enviar um job ao cluster.
As seções a seguir explicam o funcionamento do código walkthrough contido no repositório GoogleCloudPlatform/python-dataproc do GitHub.
Executar o walkthrough do Cloud Shell
Clique em Abrir no Cloud Shell para executar o tutorial.
Entenda o código
Application Default Credentials
O tutorial do Cloud Shell neste tutorial fornece autenticação usando suas credenciais do projeto do Google Cloud. Ao executar o código localmente, a prática recomendada é usar credenciais da conta de serviço para autenticar seu código.
Crie um cluster do Dataproc:
Os valores a seguir estão definidos para criar o cluster:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- o nome do cluster
- A configuração do cluster, que especifica um mestre e dois workers principais
As configurações padrão são usadas nas demais configurações do cluster. É possível modificar as configurações padrão do cluster. Por exemplo, é possível adicionar VMs secundárias (padrão = 0) ou especificar uma rede VPC não padrão para o cluster. Para mais informações, consulte CreateCluster.
Envie um job
Os valores a seguir estão definidos para enviar o job:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- A configuração do job, que especifica o nome do cluster e o caminho de arquivo (URI) do Cloud Storage do job do PySpark
Consulte SubmitJob para mais informações.
Exclua o cluster
Os valores a seguir estão definidos para excluir o cluster:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- o nome do cluster
Para mais informações, consulte DeleteCluster.