Este tutorial inclui um walkthrough do Cloud Shell que usa as bibliotecas de cliente do Google Cloud para Python para chamar programaticamente APIs gRPC do Dataproc para criar um cluster e enviar um job ao cluster.
As seções a seguir explicam o funcionamento do código walkthrough contido no repositório GoogleCloudPlatform/python-docs-samples/dataproc do GitHub.
Executar o walkthrough do Cloud Shell
Clique em Abrir no Cloud Shell para executar o tutorial.
entenda o código
Application Default Credentials
O tutorial do Cloud Shell neste tutorial fornece autenticação usando suas credenciais do projeto do Google Cloud. Ao executar o código localmente, a prática recomendada é usar credenciais da conta de serviço para autenticar seu código.
Criar um cluster do Dataproc
Os valores a seguir são definidos para criar o cluster:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- o nome do cluster
- A configuração do cluster, que especifica um mestre e dois workers principais
As configurações padrão são usadas para as configurações restantes do cluster. É possível substituir as configurações padrão de configuração do cluster. Por exemplo, é possível adicionar VMs secundárias (padrão = 0) ou especificar uma rede VPC não padrão para o cluster. Para mais informações, consulte CreateCluster.
Envie um job
Os valores a seguir são definidos para enviar o job:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- A configuração do job, que especifica o nome do cluster e o caminho do Cloud Storage (URI) do job do PySpark
Consulte SubmitJob para mais informações.
Excluir o cluster
Os valores a seguir são definidos para excluir o cluster:
- o projeto em que o cluster será criado
- A região em que o cluster será criado
- o nome do cluster
Para mais informações, consulte DeleteCluster.