Este tutorial inclui um walkthrough do Cloud Shell que usa as bibliotecas de cliente do Google Cloud para Python para chamar programaticamente APIs gRPC do Dataproc para criar um cluster e enviar um job ao cluster.
As seções a seguir explicam o funcionamento do código walkthrough contido no repositório GoogleCloudPlatform/python-dataproc do GitHub.
Executar o walkthrough do Cloud Shell
Clique em Abrir no Cloud Shell para executar o tutorial.
entenda o código
Application Default Credentials
O tutorial do Cloud Shell neste tutorial fornece autenticação usando suas credenciais do projeto do Google Cloud. Ao executar o código localmente, a prática recomendada é usar credenciais da conta de serviço para autenticar seu código.
Criar um cluster do Dataproc
Os seguintes valores estão definidos para criar o cluster:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- o nome do cluster
- A configuração do cluster, que especifica um mestre e dois workers principais
As configurações padrão são usadas para as configurações restantes do cluster. É possível substituir as configurações padrão do cluster. Por exemplo, é possível adicionar VMs secundárias (padrão = 0) ou especificar uma rede VPC não padrão para o cluster. Para mais informações, consulte CreateCluster.
Envie um job
Os seguintes valores estão definidos para enviar o job:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- A configuração do job, que especifica o nome do cluster e o caminho de arquivo (URI) do Cloud Storage do job do PySpark
Consulte SubmitJob para mais informações.
Exclua o cluster
Os seguintes valores estão definidos para excluir o cluster:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- o nome do cluster
Para mais informações, consulte o DeleteCluster.