Quando utilizzi il servizio Dataproc per creare cluster ed eseguire job sui cluster, il servizio configura i ruoli e le autorizzazioni Dataproc necessari nel progetto per accedere e utilizzare le risorse Google Cloud necessarie per svolgere queste attività. Tuttavia, se esegui lavori tra progetti, ad esempio per accedere ai dati di un altro progetto, dovrai impostare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.
Per aiutarti a eseguire correttamente il lavoro tra progetti, questo documento elenca le diverse entità che utilizzano il servizio Dataproc e i ruoli che contengono le autorizzazioni necessarie per consentire alle entità di accedere e utilizzare le risorse Google Cloud.
Esistono tre entità (identità) che accedono e utilizzano Dataproc:
- Identità utente
- Identità del piano di controllo
- Identità del piano dati
Utente API Dataproc (identità utente)
Esempio: nomeutente@example.com
Questo è l'utente che chiama il servizio Dataproc per creare cluster, inviare job e inviare altre richieste al servizio. In genere l'utente è un privato, ma può anche essere un account di servizio se Dataproc viene richiamato tramite un client API o da un altro servizio Google Cloud come Compute Engine, Cloud Functions o Cloud Composer.
Ruoli correlati
Notes
- I job inviati dall'API Dataproc vengono eseguiti come
root
su Linux. I cluster Dataproc ereditano i metadati SSH a livello di progetto, a meno che non vengano bloccati esplicitamente impostando
--metadata=block-project-ssh-keys=true
durante la creazione del cluster (vedi Metadati del cluster).Le directory utente HDFS vengono create per ciascun utente SSH a livello di progetto. Queste directory HDFS vengono create al momento del deployment del cluster e a un nuovo utente SSH (post-deployment) non viene fornita una directory HDFS sui cluster esistenti.
Agente di servizio Dataproc (identità piano di controllo)
Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com
L'account di servizio dell'agente di servizio Dataproc viene utilizzato per eseguire una vasta gamma di operazioni di sistema sulle risorse che si trovano nel progetto in cui viene creato un cluster Dataproc, tra cui:
- La creazione di risorse Compute Engine, inclusi istanze VM, gruppi di istanze
- Operazioni
get
elist
per confermare la configurazione di risorse come immagini, firewall, azioni di inizializzazione di Dataproc e bucket Cloud Storage - Creazione automatica dei bucket temporanei e di gestione temporanea di Dataproc se il bucket temporaneo o di gestione temporanea non viene specificato dall'utente
- Scrittura dei metadati di configurazione del cluster nel bucket di gestione temporanea in corso...
- Accesso alle reti VPC in un progetto host
Ruoli correlati
Account di servizio VM Dataproc (identità piano dati)
Esempio: project-number-compute@developer.gserviceaccount.com
Il codice dell'applicazione viene eseguito come account di servizio VM sulle VM Dataproc. Ai job utente vengono concessi i ruoli (con le autorizzazioni associate) di questo account di servizio.
L'account di servizio VM:
- comunica con il piano di controllo Dataproc
- legge e scrive i dati da e nei bucket temporanei e di gestione temporanea di Dataproc
- In base alle esigenze dei tuoi job Dataproc, legge e scrive i dati da e in Cloud Storage, BigQuery, Cloud Logging e altre risorse Google Cloud.
Ruoli correlati
Per maggiori informazioni
- Ruoli e autorizzazioni di Dataproc
- Account di servizio
- Controllo degli accessi BigQuery
- Opzioni di controllo dell'accesso di Cloud Storage