Best practice per Dataplex

Questo documento fornisce indicazioni e best practice per l'utilizzo di Dataplex.

Scegli un progetto per il lake

Quando selezioni il progetto in cui ospitare il lake, considera i seguenti fattori:

  • Il progetto deve appartenere allo stesso perimetro dei Controlli di servizio VPC dei dati destinati a trovarsi all'interno del lake.

  • L'account di servizio del lake richiede autorizzazioni di amministratore per i bucket Cloud Storage o i set di dati BigQuery. Dataplex crea tabelle esterne in BigQuery per le tabelle rilevate in Cloud Storage. Dataplex rende disponibili anche i metadati delle tabelle BigQuery e le tabelle rilevate nel bucket Cloud Storage, in un Dataproc Metastore. Dataproc Metastore si trova all'interno del progetto di data lake.

Impostazioni e limitazioni di Cloud Storage

  • Regione: Dataplex supporta bucket a regione singola e multiregionale in alcune regioni di Google Cloud.

  • Classe di archiviazione: sono supportati i bucket Cloud Storage di tutte le classi di archiviazione (Standard, Nearline, Coldline, Archive). Potrebbero essere addebitati costi aggiuntivi per il recupero dei dati per l'accesso o la scansione dei dati Nearline, Coldline o Archive.

  • ACL dei bucket: Dataplex supporta solo i bucket Cloud Storage con controlli di accesso uniformi. I controlli dell'accesso granulari non sono supportati.

  • Pagamenti a carico del richiedente: i bucket Cloud Storage con la funzionalità Pagamenti a carico del richiedente abilitata non sono supportati.

Indicazioni su sicurezza e autorizzazioni

Dataplex richiede di aggiungere gli account di servizio Dataplex come account di servizio amministrativo su bucket e set di dati gestiti.

Dataplex consente agli analisti di accedere ai bucket Cloud Storage e ai set di dati BigQuery. Per abilitare questo accesso, Dataplex richiede l'aggiunta degli account di servizio Dataplex con controlli amministrativi a questi progetti.

Per il rilevamento, Dataplex aggiunge l'account di servizio Dataproc Metastore ai bucket Cloud Storage. Se disponi di un cluster Dataproc Metastore, ti consigliamo di fare in modo che il lake Dataplex utilizzi il tuo servizio Dataproc Metastore, che è un'opzione quando crei il tuo lake.

Se scegli di aggiungere un bucket Cloud Storage con accesso granulare a un lake, Dataplex fornirà l'accesso completo al bucket tramite il lake perché le autorizzazioni Dataplex vengono propagate a tutti gli oggetti nel bucket. Se hai bisogno di un accesso granulare, ti consigliamo di suddividere i dati del bucket in più bucket.

Passaggi successivi