Quando utilizzi il servizio Dataproc per creare cluster ed eseguire job sui tuoi cluster, il servizio configura le autorizzazioni Dataproc e i ruoli IAM nel tuo progetto per accedere alle risorse Google Cloud e utilizzarle per eseguire queste attività. Tuttavia, se esegui attività su più progetti, ad esempio per accedere ai dati in un altro progetto, dovrai configurare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.
Per aiutarti a completare correttamente il progetto, questo documento elenca i diversi principali che utilizzano il servizio Dataproc e i ruoli che contengono le autorizzazioni necessarie per queste entità per accedere alle risorse Google Cloud e utilizzarle.
Esistono tre entità (identità) che accedono e utilizzano Dataproc:
- Identità utente
- Identità del piano di controllo
- Identità del piano dati

Utente API Dataproc (identità utente)
Esempio: nomeutente@example.com
Utente che chiama il servizio Dataproc per creare cluster, inviare job ed effettuare altre richieste al servizio. In genere l'utente è un individuo, ma può anche essere un account di servizio se Dataproc viene richiamato tramite un client API o da un altro servizio Google Cloud come Compute Engine, Cloud Functions o Cloud Composer.
Ruoli correlati
Note
- I job inviati dall'API Dataproc vengono eseguiti come
root
su Linux. I cluster Dataproc ereditano i metadati SSH di Compute Engine a livello di progetto, a meno che non siano espressamente bloccati mediante l'impostazione di
--metadata=block-project-ssh-keys=true
durante la creazione del cluster (vedi Metadati del cluster).Vengono create directory utente HDFS per ogni utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e a un nuovo utente SSH (post-deployment) non viene assegnata una directory HDFS sui cluster esistenti.
Agente di servizio Dataproc (identità piano di controllo)
Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com
L'account di servizio dell'agente di servizio Dataproc viene utilizzato per eseguire un ampio insieme di operazioni di sistema sulle risorse che si trovano nel progetto in cui viene creato un cluster Dataproc, tra cui:
- Creazione di risorse Compute Engine, tra cui istanze VM, gruppi di istanze e modelli di istanza
get
elist
le operazioni per confermare la configurazione delle risorse come immagini, firewall, azioni di inizializzazione di Dataproc e bucket Cloud Storage- Creazione automatica dei bucket di gestione temporanea e temporanea Dataproc se il bucket temporaneo o temporaneo non è specificato dall'utente
- Scrittura dei metadati di configurazione del cluster nel bucket gestione temporanea
- Accesso alle reti VPC in un progetto host
Ruoli correlati
Account di servizio VM Dataproc (identità piano dati)
Esempio: project-number-compute@developer.gserviceaccount.com
Il codice dell'applicazione viene eseguito come account di servizio VM sulle VM Dataproc. Ai ruoli utente vengono concessi i ruoli (con le relative autorizzazioni) di questo account di servizio.
L'account di servizio VM:
- comunica con il piano di controllo Dataproc
- legge e scrive dati da e verso i bucket di gestione temporanea e temporanei
- Se necessario per i tuoi job Dataproc, legge e scrive dati da e verso Cloud Storage, BigQuery, Cloud Logging e altre risorse Google Cloud.
Ruoli correlati
Per maggiori informazioni
- Autorizzazioni Dataproc e ruoli IAM
- Account di servizio
- Controllo dell'accesso a BigQuery
- Opzioni di controllo dell'accesso di Cloud Storage