Questo documento descrive come proteggere e gestire l'accesso ai lake Dataplex.
Il modello di sicurezza Dataplex ti consente di gestire le autorizzazioni utente per le seguenti attività:
- Amministrare un lake (creare e collegare asset, zone e lake aggiuntivi)
- Accesso ai dati collegati a un lake tramite l'asset di mappatura (ad esempio, risorse Google Cloud come bucket Cloud Storage e set di dati BigQuery)
- Accesso ai metadati relativi ai dati collegati a un lake
Un amministratore di un lake controlla l'accesso alle risorse Dataplex, come lake, zone e asset, concedendo i ruoli di base e predefiniti.
Ruoli di base
Ruolo | Descrizione |
---|---|
Dataplex Viewer ( roles/dataplex.viewer ) |
Possibilità di visualizzare (ma non modificare) il lake e le relative zone e asset configurati. |
Dataplex Editor ( roles/dataplex.editor ) |
Possibilità di modificare il lake. Può creare e configurare lake, zone, asset e attività. |
Dataplex Administrator ( roles/dataplex.administrator ) |
Possibilità di amministrare completamente un lake. |
Dataplex Developer ( roles/dataplex.developer ) |
Possibilità di eseguire workload di analisi dei dati su un lake. * |
Per eseguire un job Spark, crea cluster Dataproc e invia job Dataproc nel progetto a cui vuoi attribuire il calcolo.
Ruoli predefiniti
Google Cloud gestisce i ruoli predefiniti che forniscono accesso granulare per Dataplex.
Ruoli dei metadati
I ruoli dei metadati hanno la possibilità di visualizzare i metadati, ad esempio gli schemi delle tabelle.
Ruolo | Descrizione |
---|---|
Dataplex Metadata Writer ( roles/dataplex.metadataWriter ) |
Possibilità di aggiornare i metadati di una determinata risorsa. |
Dataplex Metadata Reader ( roles/dataplex.metadataReader ) |
Possibilità di leggere i metadati (ad esempio, per eseguire una query su una tabella). |
Ruoli di dati
La concessione di ruoli dati a un'entità consente di leggere o scrivere dati nelle risorse sottostanti a cui fanno riferimento le risorse del lake.
Dataplex mappa i propri ruoli ai ruoli dei dati per ogni risorsa di archiviazione sottostante, come Cloud Storage e BigQuery.
Dataplex traduce e propaga i ruoli dei dati Dataplex alla risorsa di archiviazione sottostante, impostando i ruoli corretti per ogni risorsa di archiviazione. Puoi concedere un singolo ruolo dati Dataplex alla gerarchia del lake (ad esempio un lake) e Dataplex gestisce l'accesso specificato ai dati su tutte le risorse collegate al lake (ad esempio, i bucket Cloud Storage e i set di dati BigQuery a cui fanno riferimento gli asset nelle zone sottostanti).
Ad esempio, concedere a un'entità il ruolo dataplex.dataWriter
per un lake consente all'entità di accedere in scrittura a tutti i dati all'interno del lake, alle sue zone e ai suoi asset sottostanti. I ruoli di accesso ai dati concessi a un livello inferiore (zona)
vengono ereditati nella gerarchia del lake agli asset sottostanti.
Ruolo | Descrizione |
---|---|
Dataplex Data Reader ( roles/dataplex.dataReader ) |
Possibilità di leggere i dati dallo spazio di archiviazione collegato agli asset, inclusi i bucket di archiviazione e i set di dati BigQuery (e i relativi contenuti). * |
Dataplex Data Writer ( roles/dataplex.dataWriter ) |
Possibilità di scrivere nelle risorse sottostanti a cui fa riferimento l'asset. * |
Dataplex Data Owner ( roles/dataplex.dataOwner ) |
Concede il ruolo Proprietario alle risorse sottostanti, inclusa la possibilità di gestire le risorse figlio. Ad esempio, in qualità di proprietario dei dati di un set di dati BigQuery, puoi gestire le tabelle sottostanti. |
Proteggi il tuo lake
Puoi proteggere e gestire l'accesso al tuo lake e ai dati associati. Nella console Google Cloud, utilizza una delle seguenti visualizzazioni:
- La visualizzazione Gestisci di Dataplex nella scheda Autorizzazioni
- Visualizzazione Secure di Dataplex
Utilizzo della visualizzazione Gestisci
La scheda Autorizzazioni ti consente di gestire tutte le autorizzazioni di una risorsa lake e presenta una visualizzazione non filtrata di tutte le autorizzazioni, incluse quelle ereditate.
Per proteggere il tuo lago, segui questi passaggi:
Nella console Google Cloud, vai a Dataplex.
Vai alla visualizzazione Gestisci.
Fai clic sul nome del lago che hai creato.
Fai clic sulla scheda Autorizzazioni.
Fai clic sulla scheda Visualizza per ruolo.
Fai clic su Aggiungi per aggiungere un nuovo ruolo. Aggiungi i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati.
Verifica che i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati siano visualizzati.
Utilizzo della visualizzazione Sicuro
La visualizzazione Sicuro di Dataplex nella console Google Cloud offre quanto segue:
- Una visualizzazione filtrabile solo dei ruoli Dataplex centrati su una risorsa specifica
- Separare i ruoli dei dati dai ruoli delle risorse del lake
Gestione dei criteri
Dopo aver specificato il criterio di sicurezza, Dataplex propaga le autorizzazioni ai criteri IAM delle risorse gestite.
Il criterio di sicurezza configurato a livello di lake viene propagato a tutte le risorse gestite al suo interno. Dataplex fornisce lo stato di propagazione e la visibilità di queste propagazioni su larga scala nella scheda Gestisci > Autorizzazioni di Dataplex. Monitora costantemente le risorse gestite per verificare la presenza di eventuali modifiche ai criteri IAM al di fuori di Dataplex.
Gli utenti che dispongono già delle autorizzazioni per una risorsa continuano a disporne dopo che la risorsa è stata collegata a un lake Dataplex. Analogamente, le associazioni di ruoli non Dataplex create o aggiornate dopo il collegamento della risorsa a Dataplex rimangono invariate.
Impostare criteri a livello di colonna, riga e tabella
Gli asset dei bucket Cloud Storage hanno associate tabelle esterne BigQuery.
Puoi eseguire l'upgrade di una risorsa bucket Cloud Storage, il che significa che Dataplex rimuove le tabelle esterne collegate e collega le tabelle BigLake.
Puoi utilizzare le tabelle BigLake anziché le tabelle esterne per avere controllo dell'accesso granulare, inclusi i controlli a livello di riga, i controlli a livello di colonna e il mascheramento dei dati delle colonne.
Sicurezza dei metadati
I metadati si riferiscono principalmente alle informazioni dello schema associate ai dati utente presenti nelle risorse gestite da un lake.
Dataplex Discovery esamina i dati nelle risorse gestite ed estrae le informazioni sugli schemi tabulari. Queste tabelle vengono pubblicate nei sistemi BigQuery, Dataproc Metastore e Data Catalog.
BigQuery
Ogni tabella rilevata ha una tabella associata registrata in BigQuery. Per ogni zona è associato un set di dati BigQuery in cui sono registrate tutte le tabelle esterne associate alle tabelle rilevate nella zona di dati.
Le tabelle ospitate su Cloud Storage rilevate sono registrate nel set di dati creato per la zona.
Dataproc Metastore
I database e le tabelle vengono resi disponibili in Dataproc Metastore associato all'istanza del lake Dataplex. Ogni zona dati ha un database associato e ogni asset può avere una o più tabelle associate.
I dati in un servizio Dataproc Metastore sono protetti configurando la rete VPC-SC. L'istanza Dataproc Metastore viene fornita a Dataplex durante la creazione del lake, il che la rende già una risorsa gestita dall'utente.
Data Catalog
Ogni tabella rilevata ha una voce associata in Data Catalog per abilitare la ricerca e il rilevamento.
Data Catalog richiede i nomi dei criteri IAM
durante la creazione delle voci. Pertanto, Dataplex fornisce il nome del criterio IAM della risorsa asset Dataplex a cui deve essere associata la voce. Di conseguenza, le autorizzazioni per la voce Dataplex sono basate sulle autorizzazioni per la risorsa asset.
Concedi il ruolo Dataplex Metadata Reader (roles/dataplex.metadataReader
) e il ruolo Dataplex Metadata Writer (roles/dataplex.metadataWriter
) alla risorsa asset.
Passaggi successivi
- Scopri di più su IAM Dataplex.
- Scopri di più sui ruoli IAM di Dataplex.
- Scopri di più sulle autorizzazioni IAM di Dataplex.