Proteggi il tuo lake

Il modello di sicurezza Dataplex consente di gestire chi ha accesso per eseguire le seguenti attività:

  • Amministrazione di un lake (creazione e collegamento di asset, zone e laghi aggiuntivi)
  • Accesso ai dati connessi a un lake tramite l'asset di mappatura (risorse Google Cloud come bucket Cloud Storage e set di dati BigQuery)
  • Accesso ai metadati sui dati connessi a un lake

Un amministratore di un lake controlla l'accesso alle risorse Dataplex (lago, zona e asset) concedendo i seguenti ruoli di base e predefiniti.

Ruoli di base

Ruolo Descrizione
Visualizzatore Dataplex
(roles/dataplex.viewer)
Può visualizzare (ma non modificare) il lake e le zone e gli asset configurati.
Editor Dataplex
(roles/dataplex.editor)
Può modificare il lake. Può creare e configurare lake, zone, asset e attività.
Amministratore Dataplex
(roles/dataplex.administrator)
Capacità di amministrare completamente un lake.
Sviluppatore Dataplex
(roles/dataplex.developer)
Può eseguire carichi di lavoro di analisi dei dati su un lake. *
* Per eseguire query su una tabella BigQuery, devi disporre dell'autorizzazione per eseguire un job BigQuery. Imposta questa autorizzazione nel progetto che vuoi che venga attribuito o addebitato in base alla spesa di computing del job. Per maggiori informazioni, consulta Ruoli e autorizzazioni predefiniti di BigQuery.
Per eseguire un job Spark, crea cluster Dataproc e invia i job Dataproc nel progetto a cui vuoi attribuire il calcolo.

Ruoli predefiniti

Google Cloud gestisce i ruoli seguenti, che forniscono un accesso granulare a Dataplex.

Ruoli dei metadati

I ruoli dei metadati hanno la possibilità di visualizzare i metadati, come gli schemi delle tabelle.

Ruolo Descrizione
Writer metadati Dataplex
(roles/dataplex.metadataWriter)
Può aggiornare i metadati di una determinata risorsa.
Lettore metadati Dataplex
(roles/dataplex.metadataReader)
Possibilità di leggere i metadati (ad esempio, eseguire query su una tabella).

Ruoli dei dati

La concessione di ruoli dati a un'entità consente di leggere o scrivere dati nelle risorse sottostanti a cui puntano gli asset del lake.

Dataplex mappa i propri ruoli ai ruoli dati per ogni risorsa di archiviazione sottostante (Cloud Storage, BigQuery).

Dataplex traduce e propaga i ruoli dei dati Dataplex nella risorsa di archiviazione sottostante, impostando i ruoli corretti per ogni risorsa di archiviazione. Il vantaggio è che puoi concedere un singolo ruolo dati Dataplex nella gerarchia dei lake (ad esempio, un lake) e Dataplex mantiene l'accesso specificato ai dati su tutte le risorse connesse a quel lake (ad esempio, i bucket Cloud Storage e i set di dati BigQuery sono indicati dagli asset nelle zone sottostanti).

Ad esempio, la concessione di un ruolo dataplex.dataWriter a un'entità per un lake concede all'entità l'accesso in scrittura a tutti i dati all'interno del lake, alle zone e agli asset sottostanti. I ruoli di accesso ai dati concessi a un livello inferiore (zona) vengono ereditati nella gerarchia dei lake agli asset sottostanti.

Ruolo Descrizione
Lettore dati Dataplex
(roles/dataplex.dataReader)
Possibilità di leggere i dati dallo spazio di archiviazione collegato agli asset, inclusi bucket di archiviazione e set di dati BigQuery (e i relativi contenuti). *
Writer dati Dataplex
(roles/dataplex.dataWriter)
Possibilità di scrivere nelle risorse sottostanti a cui punta l'asset. *
Proprietario dati Dataplex
(roles/dataplex.dataOwner)
Concede il ruolo Proprietario alle risorse sottostanti, inclusa la possibilità di gestire le risorse figlio. Ad esempio, in qualità di proprietario dei dati di un set di dati BigQuery, puoi gestire le tabelle sottostanti.

Proteggi il tuo lake

Puoi proteggere e gestire l'accesso al lake e ai dati associati. Nella console Google Cloud, utilizza una delle seguenti visualizzazioni:

  • La visualizzazione Gestione di Dataplex, nella scheda Autorizzazioni oppure
  • Visualizzazione Secure di Dataplex

Utilizzare la vista Gestisci

La scheda Autorizzazioni consente di gestire tutte le autorizzazioni su una risorsa lake e presenta una visualizzazione non filtrata di tutte le autorizzazioni, incluse quelle ereditate.

Per proteggere il tuo lake, segui questi passaggi:

  1. Vai a Dataplex nella console Google Cloud.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Fai clic sul nome del lake che hai creato.

  4. Fai clic sulla scheda Autorizzazioni.

  5. Fai clic sulla scheda Visualizza per ruoli.

  6. Fai clic su Aggiungi per aggiungere un nuovo ruolo. Aggiungi i ruoli Lettore dati Dataplex, writer dati e proprietario dati.

  7. Verifica che vengano visualizzati i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati.

Utilizzare la visualizzazione Sicura

La visualizzazione Secure di Dataplex nella console Google Cloud offre quanto segue:

  • Una visualizzazione semplice e filtrabile dei soli ruoli Dataplex centrati su una risorsa specifica.
  • Separa i ruoli dei dati dai ruoli delle risorse lake.
Esempio di autorizzazioni relative ai dati non ereditate dalle risorse del lake superiore
Figura 1: in questo esempio di lake, entrambe le entità dispongono delle autorizzazioni di accesso ai dati sull'asset chiamato Dati di Cloud Storage (dati GCS). Queste autorizzazioni non vengono ereditate dalle risorse del lake di livello superiore.


Esempio di autorizzazioni non ereditate dalle risorse del lake di livello superiore
Figura 2: questo esempio mostra:
  1. Un account di servizio che eredita il ruolo Amministratore Dataplex dal progetto.
  2. Entità (indirizzo email) che ereditano i ruoli di Editor Dataplex e Visualizzatore dal progetto. Questi sono i ruoli che si applicano a tutte le risorse.
  3. Un'entità (indirizzo email) che eredita il ruolo Amministratore Dataplex dal progetto.

Gestione dei criteri

Dopo aver specificato il criterio di sicurezza, Dataplex propaga le autorizzazioni ai criteri IAM delle risorse gestite.

Il criterio di sicurezza configurato a livello di lake viene propagato a tutte le risorse gestite all'interno di quel lake. Dataplex fornisce stato di propagazione e visibilità su queste propagazioni su larga scala nella scheda Gestisci > Autorizzazioni di Dataplex. Monitora costantemente le risorse gestite per rilevare eventuali modifiche ai criteri IAM al di fuori di Dataplex.

Gli utenti che hanno già autorizzazioni per una risorsa continueranno a farlo dopo che una risorsa viene collegata a un lake Dataplex. Analogamente, le associazioni di ruoli non Dataplex che vengono create o aggiornate dopo aver collegato la risorsa a Dataplex rimangono invariate.

Imposta criteri a livello di colonna, riga e tabella

Agli asset del bucket Cloud Storage sono associate tabelle esterne BigQuery.

Puoi eseguire l'upgrade di un asset del bucket Cloud Storage, il che significa che Dataplex rimuove le tabelle esterne collegate e collega invece le tabelle BigLake.

Puoi utilizzare le tabelle BigLake anziché le tabelle esterne per ottenere controllo dell'accesso granulare, inclusi controlli a livello di riga, controlli a livello di colonna e mascheramento dei dati delle colonne.

Sicurezza dei metadati

I metadati si riferiscono principalmente alle informazioni sullo schema associate ai dati utente presenti nelle risorse gestite da un lake.

Dataplex Discovery esamina i dati nelle risorse gestite ed estrae informazioni sullo schema tabulare. Queste tabelle sono pubblicate nei sistemi BigQuery, Dataproc Metastore e Data Catalog.

BigQuery

A ogni tabella rilevata è associata una tabella registrata in BigQuery. Per ogni zona, è presente un set di dati BigQuery associato in cui sono registrate tutte le tabelle esterne associate alle tabelle rilevate in quella zona dati.

Le tabelle ospitate da Cloud Storage rilevate vengono registrate nel set di dati creato per la zona.

Dataproc Metastore

I database e le tabelle sono resi disponibili nel metastore Dataproc associato all'istanza del lake Dataplex. A ogni zona di dati è associato un database e ogni asset può avere una o più tabelle associate.

I dati in un servizio Dataproc Metastore sono protetti dalla configurazione della rete VPC-SC. L'istanza Dataproc Metastore viene fornita a Dataplex durante la creazione del lake, che lo rende già una risorsa gestita dall'utente.

Data Catalog

A ogni tabella rilevata è associata una voce in Data Catalog, per consentire la ricerca e il rilevamento.

Poiché Data Catalog richiede i nomi dei criteri IAM durante la creazione delle voci, Dataplex fornisce il nome del criterio IAM della risorsa asset Dataplex a cui deve essere associata la voce. Di conseguenza, le autorizzazioni per la voce Dataplex si basano sulle autorizzazioni per la risorsa asset. Concedi il ruolo Lettore metadati Dataplex (roles/dataplex.metadataReader) e il ruolo Autore metadati Dataplex (roles/dataplex.metadataWriter) per la risorsa asset.

Che cosa succede dopo?