Quando utilizzi il servizio Dataproc per creare cluster ed eseguire job sui tuoi cluster, il servizio configura le autorizzazioni BigQuery e i ruoli IAM necessari nel tuo progetto per accedere e utilizzare le risorse Google Cloud di cui ha bisogno per completare queste attività. Tuttavia, se svolgi operazioni tra progetti, ad esempio per accedere ai dati in un altro progetto, dovrai configurare le autorizzazioni e i ruoli necessari per accedere alle risorse tra progetti.
Per aiutarti a lavorare correttamente tra progetti, questo documento elenca i diversi provider che usano il servizio Dataproc e i ruoli che contengono le autorizzazioni necessarie per quelle entità per accedere e utilizzare le risorse Google Cloud.
Esistono tre entità (identità) che accedono e utilizzano Dataproc:
- Identità utente
- Identità piano di controllo
- Identità piano dati

Utente API Dataproc (identità utente)
Esempio: nomeutente@example.com
Questo è l'utente che chiama il servizio Dataproc per creare i cluster, inviare i job ed eseguire altre richieste al servizio. L'utente è di solito un privato, ma può anche essere un account di servizio se Dataproc viene richiamato tramite un client API o da un altro servizio Google Cloud come Compute Engine, Cloud Functions o Cloud Composer.
Ruoli correlati
Note
- I job inviati dall'API Dataproc vengono eseguiti come
root
su Linux. I cluster Dataproc ereditano i metadati SSH di Compute Engine a livello di progetto, a meno che non vengano espressamente bloccati mediante l'impostazione
--metadata=block-project-ssh-keys=true
quando crei il cluster (vedi Metadati cluster).Vengono create directory di utenti HDFS per ogni utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e un nuovo utente SSH (dopo il deployment) non riceve una directory HDFS sui cluster esistenti.
Agente di servizio Dataproc (identità piano di controllo)
Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com
L'account di servizio Agente di servizio Dataproc di Dataproc viene utilizzato per eseguire un ampio set di operazioni di sistema sulle risorse del progetto in cui viene creato il cluster Dataproc, tra cui:
- Creazione di risorse Compute Engine, incluse istanze VM, gruppi di istanze e modelli di istanza
- Operazioni
get
elist
per confermare la configurazione delle risorse, come immagini, firewall, azioni di inizializzazione di Dataproc e bucket di Cloud Storage - Creazione automatica dei bucket di gestione temporanea e temporanea di Dataproc se il bucket temporaneo o temporaneo non è specificato dall'utente
- Scrittura dei metadati di configurazione del cluster nel bucket temporaneo
- Accesso alle campagne VPC in un progetto host
Ruoli correlati
Account di servizio VM di Dataproc (identità piano dati)
Esempio: project-number-compute@developer.gserviceaccount.com
Il codice dell'applicazione viene eseguito come account di servizio VM sulle VM Dataproc. Ai job utente vengono concessi i ruoli (con le relative autorizzazioni) di questo account di servizio.
L'account di servizio VM:
- comunica con il piano di controllo di Dataproc
- legge e scrive dati da e verso i bucket temporanei e di gestione temporanea
- In base alle esigenze dei job Dataproc, legge e scrive dati da e verso Cloud Storage, BigQuery, Cloud Logging e altre risorse Google Cloud.
Ruoli correlati
Per ulteriori informazioni
- Autorizzazioni Cloud Dataproc e ruoli IAM
- Account di servizio
- Controllo accesso BigQuery
- Opzioni di controllo dell'accesso di Cloud Storage