Quando utilizzi il servizio Dataproc per creare cluster ed eseguire sui tuoi cluster, il servizio configura le necessarie Ruoli e autorizzazioni di Dataproc del tuo progetto per accedere e utilizzare le risorse Google Cloud necessarie queste attività. Tuttavia, se ti occupi di più progetti, ad esempio per accedere ai dati in un altro progetto, dovrai configurare i ruoli e le autorizzazioni necessari per accedere alle risorse tra progetti.
Per aiutarti a eseguire correttamente il lavoro tra progetti, questo documento elenca le diverse entità che utilizzano il servizio Dataproc e i ruoli che contengono le autorizzazioni necessarie per consentire alle entità di accedere e utilizzare le risorse Google Cloud.
Esistono tre entità (identità) che accedono e utilizzano Dataproc:
- Identità utente
- Identità del piano di controllo
- Identità del piano dati
Utente API Dataproc (identità utente)
Esempio: username@example.com
Questo è l'utente che chiama il servizio Dataproc per creare cluster, inviare job e fare altre richieste al servizio. L'utente è di solito un individuo, ma può anche essere account di servizio se Dataproc viene richiamato tramite un client API o da un altro Servizio Google Cloud come Compute Engine, Cloud Run Functions o Cloud Composer.
Ruoli correlati
Note
- I job inviati dall'API Dataproc vengono eseguiti come
root
su Linux. I cluster Dataproc ereditano Compute Engine a livello di progetto Metadati SSH a meno che non vengano bloccati esplicitamente dall'impostazione
--metadata=block-project-ssh-keys=true
quando crei il cluster (vedi Metadati del cluster).Le directory utente HDFS vengono create per ciascun utente SSH a livello di progetto. Questi Le directory HDFS vengono create al momento del deployment del cluster e una nuova risorsa (post-deployment) All'utente SSH non viene fornita una directory HDFS sui cluster esistenti.
Agente di servizio Dataproc (identità piano di controllo)
Esempio: service-project-number@dataproc-accounts.iam.gserviceaccount.com
Il service account Agente di servizio Dataproc Dataproc viene utilizzato per eseguire un ampio insieme di operazioni di sistema sulle risorse situate nel progetto in cui viene creato un cluster Dataproc, tra cui:
- Creazione di risorse Compute Engine, incluse le istanze VM, gruppi di istanze e modelli di istanza
- Operazioni
get
elist
per confermare la configurazione di di risorse come immagini, firewall, inizializzazione di Dataproc azioni e bucket Cloud Storage - Creazione automatica di Dataproc bucket gestione temporanea e gestione temporanea se il bucket gestione temporanea o gestione temporanea non è specificato dall'utente
- Scrittura dei metadati di configurazione del cluster nel bucket di gestione temporanea in corso...
- Accedere alle reti VPC in un progetto host
Ruoli correlati
Account di servizio VM Dataproc (identità piano dati)
Esempio: project-number-compute@developer.gserviceaccount.com
Il codice dell'applicazione viene eseguito come account di servizio VM sulle VM Dataproc. Ai job utente vengono concessi i ruoli (con le autorizzazioni associate) di questo l'account di servizio.
L'account di servizio VM:
- comunica con Piano di controllo Dataproc
- Legge e scrive dati da e verso i bucket temporanei e di gestione temporanea di Dataproc
- A seconda delle esigenze dei job Dataproc, legge e scrive dati da e verso Cloud Storage, BigQuery, Cloud Logging e altre risorse Google Cloud.
Ruoli correlati
di Gemini Advanced.Per ulteriori informazioni
- Ruoli e autorizzazioni Dataproc
- Account di servizio
- Controllo dell'accesso BigQuery
- Opzioni di controllo dell'accesso di Cloud Storage