Papéis e funções do Dataproc

Quando você usa o serviço do Dataproc para criar clusters e executar jobs nos clusters, o serviço configura as permissões do Dataproc e os papéis do IAM necessários no projeto para acessar e usar o Google Cloud. recursos necessários para realizar essas tarefas. No entanto, se fizer um trabalho entre projetos, por exemplo, para acessar dados em outro projeto, você precisará configurar os papéis e as permissões necessários para acessar recursos entre projetos.

Para ajudar você a fazer trabalho entre projetos com sucesso, este documento lista os diferentes princípios que usam o serviço do Dataproc e os papéis que contêm as permissões necessárias para que esses principais acessem e usem os recursos do Google Cloud.

Há três principais identidades, que acessam e usam o Dataproc:

  1. Identidade do usuário
  2. Identidade do plano de controle
  3. Identidade do plano de dados

Usuário da API Dataproc (identidade do usuário)

Exemplo: username@example.com

Este é o usuário que chama o serviço Dataproc para criar clusters, enviar jobs e fazer outras solicitações ao serviço. O usuário geralmente é um indivíduo, mas também pode ser uma conta de serviço se o Dataproc for invocado por meio de um cliente da API ou de outro serviço do Google Cloud, como Compute Engine, Cloud Functions ou Cloud Composer

Papéis relacionados

Observações

  • Os jobs enviados pela API Dataproc são executados como root no Linux.
  • Os clusters do Dataproc herdam os metadados SSH do Compute Engine em todo o projeto, a menos que sejam bloqueados explicitamente definindo --metadata=block-project-ssh-keys=true durante a criação do cluster. Consulte Metadados de cluster.

  • Os diretórios de usuário do HDFS são criados para cada usuário SSH no nível do projeto. Esses diretórios do HDFS são criados no momento da implantação do cluster, e um novo usuário SSH (pós-implantação) não recebe um diretório HDFS nos clusters atuais.

Agente de serviço do Dataproc (identidade do plano de controle)

Exemplo: service-project-number@dataproc-accounts.iam.gserviceaccount.com

A conta de serviço do agente de serviço do Dataproc é usada para executar um amplo conjunto de operações de sistema nos recursos localizados no projeto em que um cluster do Dataproc é criado, incluindo:

  • criar recursos do Compute Engine, inclusive instâncias de VM, grupos de instâncias e modelos de instâncias.
  • operações get e list para confirmar a configuração de recursos, como imagens, firewalls, ações de inicialização do Dataproc e buckets do Cloud Storage;
  • criar automaticamente os buckets temporários de preparo e o Dataproc se o bucket temporário ou temporário não for especificado pelo usuário;
  • gravar metadados de configuração do cluster no bucket de preparo;

Papéis relacionados

Conta de serviço de VM do Dataproc (identidade do plano de dados)

Exemplo: project-number-compute@developer.gserviceaccount.com

O código do aplicativo é executado como a conta de serviço da VM nas VMs do Dataproc. Os jobs de usuário recebem os papéis (com as permissões associadas) dessa conta de serviço.

A conta de serviço da VM:

Papéis relacionados

Para saber mais