Proteggi il tuo lake

Questo documento descrive come proteggere e gestire l'accesso ai lake Dataplex.

Il modello di sicurezza Dataplex ti consente di gestire le autorizzazioni utente per le seguenti attività:

  • Amministrare un lake (creare e collegare asset, zone e lake aggiuntivi)
  • Accesso ai dati collegati a un lake tramite l'asset di mappatura (ad esempio, risorse Google Cloud come bucket Cloud Storage e set di dati BigQuery)
  • Accesso ai metadati relativi ai dati collegati a un lake

Un amministratore di un lake controlla l'accesso alle risorse Dataplex, come lake, zone e asset, concedendo i ruoli di base e predefiniti.

Ruoli di base

Ruolo Descrizione
Dataplex Viewer
(roles/dataplex.viewer)
Possibilità di visualizzare (ma non modificare) il lake e le relative zone e asset configurati.
Dataplex Editor
(roles/dataplex.editor)
Possibilità di modificare il lake. Può creare e configurare lake, zone, asset e attività.
Dataplex Administrator
(roles/dataplex.administrator)
Possibilità di amministrare completamente un lake.
Dataplex Developer
(roles/dataplex.developer)
Possibilità di eseguire workload di analisi dei dati su un lake. *
* Per eseguire query su una tabella BigQuery, devi disporre dell'autorizzazione per eseguire un job BigQuery. Imposta questa autorizzazione nel progetto a cui vuoi attribuire o addebitare la spesa per l'utilizzo di risorse di calcolo del job. Per ulteriori informazioni, consulta Ruoli e autorizzazioni predefiniti di BigQuery.
Per eseguire un job Spark, crea cluster Dataproc e invia job Dataproc nel progetto a cui vuoi attribuire il calcolo.

Ruoli predefiniti

Google Cloud gestisce i ruoli predefiniti che forniscono accesso granulare per Dataplex.

Ruoli dei metadati

I ruoli dei metadati hanno la possibilità di visualizzare i metadati, ad esempio gli schemi delle tabelle.

Ruolo Descrizione
Dataplex Metadata Writer
(roles/dataplex.metadataWriter)
Possibilità di aggiornare i metadati di una determinata risorsa.
Dataplex Metadata Reader
(roles/dataplex.metadataReader)
Possibilità di leggere i metadati (ad esempio, per eseguire una query su una tabella).

Ruoli di dati

La concessione di ruoli dati a un'entità consente di leggere o scrivere dati nelle risorse sottostanti a cui fanno riferimento le risorse del lake.

Dataplex mappa i propri ruoli ai ruoli dei dati per ogni risorsa di archiviazione sottostante, come Cloud Storage e BigQuery.

Dataplex traduce e propaga i ruoli dei dati Dataplex alla risorsa di archiviazione sottostante, impostando i ruoli corretti per ogni risorsa di archiviazione. Puoi concedere un singolo ruolo dati Dataplex alla gerarchia del lake (ad esempio un lake) e Dataplex gestisce l'accesso specificato ai dati su tutte le risorse collegate al lake (ad esempio, i bucket Cloud Storage e i set di dati BigQuery a cui fanno riferimento gli asset nelle zone sottostanti).

Ad esempio, concedere a un'entità il ruolo dataplex.dataWriter per un lake consente all'entità di accedere in scrittura a tutti i dati all'interno del lake, alle sue zone e ai suoi asset sottostanti. I ruoli di accesso ai dati concessi a un livello inferiore (zona) vengono ereditati nella gerarchia del lake agli asset sottostanti.

Ruolo Descrizione
Dataplex Data Reader
(roles/dataplex.dataReader)
Possibilità di leggere i dati dallo spazio di archiviazione collegato agli asset, inclusi i bucket di archiviazione e i set di dati BigQuery (e i relativi contenuti). *
Dataplex Data Writer
(roles/dataplex.dataWriter)
Possibilità di scrivere nelle risorse sottostanti a cui fa riferimento l'asset. *
Dataplex Data Owner
(roles/dataplex.dataOwner)
Concede il ruolo Proprietario alle risorse sottostanti, inclusa la possibilità di gestire le risorse figlio. Ad esempio, in qualità di proprietario dei dati di un set di dati BigQuery, puoi gestire le tabelle sottostanti.

Proteggi il tuo lake

Puoi proteggere e gestire l'accesso al tuo lake e ai dati associati. Nella console Google Cloud, utilizza una delle seguenti visualizzazioni:

  • La visualizzazione Gestisci di Dataplex nella scheda Autorizzazioni
  • Visualizzazione Secure di Dataplex

Utilizzo della visualizzazione Gestisci

La scheda Autorizzazioni ti consente di gestire tutte le autorizzazioni di una risorsa lake e presenta una visualizzazione non filtrata di tutte le autorizzazioni, incluse quelle ereditate.

Per proteggere il tuo lago, segui questi passaggi:

  1. Nella console Google Cloud, vai a Dataplex.

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Fai clic sul nome del lago che hai creato.

  4. Fai clic sulla scheda Autorizzazioni.

  5. Fai clic sulla scheda Visualizza per ruolo.

  6. Fai clic su Aggiungi per aggiungere un nuovo ruolo. Aggiungi i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati.

  7. Verifica che i ruoli Lettore dati Dataplex, Writer dati e Proprietario dati siano visualizzati.

Utilizzo della visualizzazione Sicuro

La visualizzazione Sicuro di Dataplex nella console Google Cloud offre quanto segue:

  • Una visualizzazione filtrabile solo dei ruoli Dataplex centrati su una risorsa specifica
  • Separare i ruoli dei dati dai ruoli delle risorse del lake
Esempio di autorizzazioni dei dati che non vengono ereditate dalle risorse del lago di livello superiore
Figura 1: in questo esempio di data lake, entrambi i principali dispongono di autorizzazioni di accesso ai dati per l'asset denominato Dati Cloud Storage (dati GCS). Queste autorizzazioni non vengono ereditate dalle risorse del lake di livello superiore.


Esempio di autorizzazioni che non vengono ereditate dalle risorse del lago di livello superiore
Figura 2: questo esempio mostra:
  1. Un account di servizio che eredita il ruolo Amministratore Dataplex dal progetto.
  2. Entità (indirizzo email) che ereditano i ruoli Editor e Visualizzatore di Dataplex dal progetto. Questi sono i ruoli che si applicano a tutte le risorse.
  3. Un'entità (indirizzo email) che eredita il ruolo di amministratore Dataplex dal progetto.

Gestione dei criteri

Dopo aver specificato il criterio di sicurezza, Dataplex propaga le autorizzazioni ai criteri IAM delle risorse gestite.

Il criterio di sicurezza configurato a livello di lake viene propagato a tutte le risorse gestite al suo interno. Dataplex fornisce lo stato di propagazione e la visibilità di queste propagazioni su larga scala nella scheda Gestisci > Autorizzazioni di Dataplex. Monitora costantemente le risorse gestite per verificare la presenza di eventuali modifiche ai criteri IAM al di fuori di Dataplex.

Gli utenti che dispongono già delle autorizzazioni per una risorsa continuano a disporne dopo che la risorsa è stata collegata a un lake Dataplex. Analogamente, le associazioni di ruoli non Dataplex create o aggiornate dopo il collegamento della risorsa a Dataplex rimangono invariate.

Impostare criteri a livello di colonna, riga e tabella

Gli asset dei bucket Cloud Storage hanno associate tabelle esterne BigQuery.

Puoi eseguire l'upgrade di una risorsa bucket Cloud Storage, il che significa che Dataplex rimuove le tabelle esterne collegate e collega le tabelle BigLake.

Puoi utilizzare le tabelle BigLake anziché le tabelle esterne per avere controllo dell'accesso granulare, inclusi i controlli a livello di riga, i controlli a livello di colonna e il mascheramento dei dati delle colonne.

Sicurezza dei metadati

I metadati si riferiscono principalmente alle informazioni dello schema associate ai dati utente presenti nelle risorse gestite da un lake.

Dataplex Discovery esamina i dati nelle risorse gestite ed estrae le informazioni sugli schemi tabulari. Queste tabelle vengono pubblicate nei sistemi BigQuery, Dataproc Metastore e Data Catalog.

BigQuery

Ogni tabella rilevata ha una tabella associata registrata in BigQuery. Per ogni zona è associato un set di dati BigQuery in cui sono registrate tutte le tabelle esterne associate alle tabelle rilevate nella zona di dati.

Le tabelle ospitate su Cloud Storage rilevate sono registrate nel set di dati creato per la zona.

Dataproc Metastore

I database e le tabelle vengono resi disponibili in Dataproc Metastore associato all'istanza del lake Dataplex. Ogni zona dati ha un database associato e ogni asset può avere una o più tabelle associate.

I dati in un servizio Dataproc Metastore sono protetti configurando la rete VPC-SC. L'istanza Dataproc Metastore viene fornita a Dataplex durante la creazione del lake, il che la rende già una risorsa gestita dall'utente.

Data Catalog

Ogni tabella rilevata ha una voce associata in Data Catalog per abilitare la ricerca e il rilevamento.

Data Catalog richiede i nomi dei criteri IAM durante la creazione delle voci. Pertanto, Dataplex fornisce il nome del criterio IAM della risorsa asset Dataplex a cui deve essere associata la voce. Di conseguenza, le autorizzazioni per la voce Dataplex sono basate sulle autorizzazioni per la risorsa asset. Concedi il ruolo Dataplex Metadata Reader (roles/dataplex.metadataReader) e il ruolo Dataplex Metadata Writer (roles/dataplex.metadataWriter) alla risorsa asset.

Passaggi successivi