Questa pagina descrive la gestione del controllo dell'accesso quando esegui il deployment e l'esecuzione di una pipeline che utilizza cluster Dataproc in un altro progetto Google Cloud.
Scenario
Per impostazione predefinita, quando un'istanza di Cloud Data Fusion viene avviata in un progetto Google Cloud, esegue il deployment e le pipeline utilizzando i cluster Dataproc all'interno dello stesso progetto. Tuttavia, la tua organizzazione potrebbe richiedere l'utilizzo dei cluster in un altro progetto. Per questo caso d'uso, devi gestire l'accesso tra i progetti. La pagina seguente descrive come modificare le configurazioni di base di riferimento (predefinita) e applicare i controlli di accesso appropriati.
Prima di iniziare
Per comprendere le soluzioni in questo caso d'uso, è necessario il seguente contesto:
- Familiarità con i concetti base di Cloud Data Fusion
- Familiarità con Identity and Access Management (IAM) per Cloud Data Fusion
- Dimestichezza con il networking di Cloud Data Fusion
Presupposti e ambito
Questo caso d'uso prevede i seguenti requisiti:
- Un'istanza di Cloud Data Fusion privata. Per motivi di sicurezza, un'organizzazione può richiedere l'utilizzo di questo tipo di istanza.
- Un'origine e un sink BigQuery.
- Controllo dell'accesso con IAM, non con controllo dell'accesso basato sui ruoli (RBAC).
Soluzione
Questa soluzione mette a confronto l'architettura e la configurazione specifiche per i casi d'uso e di base.
Architettura
I seguenti diagrammi confrontano l'architettura del progetto per la creazione di un'istanza di Cloud Data Fusion e l'esecuzione di pipeline quando utilizzi i cluster nello stesso progetto (base di riferimento) e in un progetto diverso tramite il VPC del progetto tenant.
Architettura di riferimento
Questo diagramma mostra l'architettura di base dei progetti:
Per la configurazione di base, crei un'istanza di Cloud Data Fusion privata ed esegui una pipeline senza personalizzazioni aggiuntive:
- Utilizzi uno dei profili di computing integrati
- L'origine e il sink si trovano nello stesso progetto dell'istanza
- Non sono stati concessi ruoli aggiuntivi a nessuno degli account di servizio
Per maggiori informazioni sui progetti tenant e dei clienti, consulta Networking.
Architettura del caso d'uso
Questo diagramma mostra l'architettura del progetto quando utilizzi i cluster in un altro progetto:
Configurazioni
Le seguenti sezioni confrontano le configurazioni di base con le configurazioni specifiche dei casi d'uso per l'utilizzo di cluster Dataproc in un progetto diverso tramite il VPC del progetto tenant predefinito.
Nelle seguenti descrizioni dei casi d'uso, il progetto del cliente è il luogo in cui viene eseguita l'istanza di Cloud Data Fusion e il progetto Dataproc è il luogo in cui viene avviato il cluster Dataproc.
VPC e istanza del progetto tenant
Base di riferimento | Caso d'uso |
---|---|
Nel diagramma dell'architettura di riferimento precedente, il progetto tenant contiene i componenti seguenti:
|
Non è necessaria alcuna configurazione aggiuntiva per questo caso d'uso. |
Progetto cliente
Base di riferimento | Caso d'uso |
---|---|
Nel tuo progetto Google Cloud esegui il deployment e l'esecuzione delle pipeline. Per impostazione predefinita, i cluster Dataproc vengono avviati in questo progetto quando esegui le pipeline. | In questo caso d'uso, gestisci due progetti. In questa pagina, il progetto del cliente si riferisce a dove viene eseguita l'istanza di Cloud Data Fusion. Il progetto Dataproc si riferisce al luogo di avvio dei cluster Dataproc. |
VPC cliente
Base di riferimento | Caso d'uso |
---|---|
Dal punto di vista del cliente, il VPC del cliente è la posizione logica di Cloud Data Fusion. Concetto chiave: puoi trovare i dettagli del VPC cliente nella pagina Reti VPC del tuo progetto. |
Non è necessaria alcuna configurazione aggiuntiva per questo caso d'uso. |
Subnet Cloud Data Fusion
Base di riferimento | Caso d'uso |
---|---|
Dal punto di vista del cliente, questa subnet è la posizione logica di Cloud Data Fusion. Concetto chiave: la regione di questa subnet corrisponde alla località dell'istanza Cloud Data Fusion nel progetto tenant. |
Non è necessaria alcuna configurazione aggiuntiva per questo caso d'uso. |
Subnet Dataproc
Base di riferimento | Caso d'uso |
---|---|
La subnet in cui vengono avviati i cluster Dataproc quando esegui una pipeline. Concetti più importanti:
|
Questa è una nuova subnet in cui vengono avviati i cluster Dataproc quando esegui una pipeline. Concetti più importanti:
|
Origini e sink
Base di riferimento | Caso d'uso |
---|---|
Le origini da cui vengono estratti i dati e i sink in cui vengono caricati i dati, ad esempio origini e sink BigQuery. Concetto chiave:
|
Le configurazioni controllo dell'accesso dell'accesso specifiche per i casi d'uso in questa pagina si riferiscono alle origini e ai sink BigQuery. |
Cloud Storage
Base di riferimento | Caso d'uso |
---|---|
Il bucket di archiviazione nel progetto del cliente che aiuta a trasferire i file tra Cloud Data Fusion e Dataproc. Concetti più importanti:
|
Non è necessaria alcuna configurazione aggiuntiva per questo caso d'uso. |
Bucket temporanei utilizzati da origine e sink
Base di riferimento | Caso d'uso |
---|---|
I bucket temporanei creati dai plug-in per le origini e i sink, come i job di caricamento avviati dal plug-in sink di BigQuery. Concetti più importanti:
|
Per questo caso d'uso, il bucket può essere creato in qualsiasi progetto. |
Bucket che sono origini o sink di dati per i plug-in
Base di riferimento | Caso d'uso |
---|---|
Bucket cliente, che specifichi nelle configurazioni per i plug-in, come il plug-in Cloud Storage e il plug-in da FTP a Cloud Storage. | Non è necessaria alcuna configurazione aggiuntiva per questo caso d'uso. |
IAM: agente di servizio API Cloud Data Fusion
Base di riferimento | Caso d'uso |
---|---|
Quando l'API Cloud Data Fusion è abilitata, il ruolo Agente di servizio API Cloud Data Fusion ( Concetti più importanti:
|
Per questo caso d'uso, concedi il ruolo Agente di servizio API Cloud Data Fusion all'account di servizio nel progetto Dataproc. Quindi concedi i ruoli seguenti nel progetto:
|
IAM: account di servizio Dataproc
Base di riferimento | Caso d'uso |
---|---|
L'account di servizio utilizzato per eseguire la pipeline come job all'interno del cluster Dataproc. Per impostazione predefinita, è l'account di servizio Compute Engine. (Facoltativo) Nella configurazione di base puoi sostituire l'account di servizio predefinito con un altro account di servizio dello stesso progetto. Concedi i seguenti ruoli IAM al nuovo account di servizio:
|
Questo esempio di caso d'uso presuppone che utilizzi l'account di servizio Compute Engine predefinito ( Concedi i ruoli seguenti all'account di servizio Compute Engine predefinito nel progetto Dataproc.
Concedi il ruolo Utente account di servizio all'account di servizio Cloud Data Fusion nell'account di servizio Compute Engine predefinito del progetto Dataproc. Questa azione deve essere eseguita nel progetto Dataproc. Aggiungi l'account di servizio Compute Engine predefinito del progetto Dataproc al progetto Cloud Data Fusion. Concedi anche i ruoli seguenti:
|
API
Base di riferimento | Caso d'uso |
---|---|
Quando abiliti l'API Cloud Data Fusion, vengono abilitate anche le seguenti API. Per ulteriori informazioni su queste API, vai alla pagina API e servizi del progetto.
Quando abiliti l'API Cloud Data Fusion, i seguenti account di servizio vengono aggiunti automaticamente al progetto:
|
Per questo caso d'uso, abilita le API seguenti nel progetto che contiene il progetto Dataproc:
|
Chiavi di crittografia
Base di riferimento | Caso d'uso |
---|---|
Nella configurazione di base, le chiavi di crittografia possono essere gestite da Google o CMEK Concetti più importanti: Se utilizzi CMEK, la configurazione di base richiede quanto segue:
A seconda dei servizi utilizzati nella tua pipeline, come BigQuery o Cloud Storage, agli account di servizio deve essere concesso anche il ruolo Autore crittografia/decrittografia CryptoKey Cloud KMS:
|
Se non utilizzi CMEK, non sono necessarie ulteriori modifiche per questo caso d'uso. Se utilizzi CMEK, devi fornire il ruolo Autore crittografia/decrittografia CryptoKey Cloud KMS al seguente account di servizio a livello di chiave nel progetto in cui è stato creato:
A seconda dei servizi utilizzati nella tua pipeline, come BigQuery o Cloud Storage, anche ad altri account di servizio deve essere concesso il ruolo Autore crittografia/decrittografia CryptoKey Cloud KMS a livello di chiave. Ad esempio:
|
Dopo aver effettuato queste configurazioni specifiche per i casi d'uso, la pipeline di dati può essere eseguita sui cluster in un altro progetto.
Passaggi successivi
- Scopri di più sul networking in Cloud Data Fusion.
- Consulta la documentazione di riferimento sui ruoli IAM di base e predefiniti.