best practice

Questo documento fornisce indicazioni e best practice per l'utilizzo di Dataplex.

Scegli un progetto per il lake

Quando selezioni il progetto in cui ospitare il tuo lake, considera i seguenti fattori:

  • Il progetto deve appartenere allo stesso perimetro dei Controlli di servizio VPC dei dati destinati a trovarsi all'interno del lake.

  • L'account di servizio lake richiede le autorizzazioni di amministratore per i bucket Cloud Storage o i set di dati BigQuery. Dataplex crea tabelle esterne in BigQuery per le tabelle rilevate in Cloud Storage. Dataplex rende disponibili anche i metadati delle tabelle BigQuery e le tabelle rilevate nel bucket Cloud Storage, in un Dataproc Metastore. Dataproc Metastore si trova all'interno del progetto del data lake.

Impostazioni e limitazioni di Cloud Storage

  • Regione: Dataplex supporta bucket a una o più regioni in alcune regioni di Google Cloud.

  • Classe di archiviazione: sono supportati i bucket Cloud Storage di tutte le classi di archiviazione (Standard, Nearline, Coldline, Archive). Potrebbero essere addebitati costi aggiuntivi per il recupero dei dati per l'accesso o la scansione di dati Nearline, Coldline o Archive.

  • ACL del bucket: Dataplex supporta solo i bucket Cloud Storage con controlli dell'accesso uniformi. Non sono supportati controlli dell'accesso granulari.

  • Pagamenti a carico del richiedente: i bucket Cloud Storage con la funzionalità Pagamenti a carico del richiedente non sono supportati.

Indicazioni su sicurezza e autorizzazioni

Dataplex richiede l'aggiunta degli account di servizio Dataplex come account di servizio amministrativo su bucket e set di dati gestiti.

Dataplex consente agli analisti di accedere ai bucket Cloud Storage e ai set di dati BigQuery per molti progetti. Per abilitare questo accesso, Dataplex richiede l'aggiunta degli account di servizio Dataplex con controlli amministrativi a questi progetti.

Per il rilevamento, Dataplex aggiunge l'account di servizio Dataproc Metastore ai bucket Cloud Storage. Se hai un tuo cluster Dataproc Metastore, ti consigliamo di fare in modo che il lake Dataplex utilizzi il servizio Dataproc Metastore, che è un'opzione disponibile durante la creazione del lake.

Se scegli di aggiungere un bucket Cloud Storage con accesso granulare a un lake, Dataplex fornirà l'accesso completo a quel bucket tramite il lake perché le autorizzazioni Dataplex vengono propagate a tutti gli oggetti nel bucket. Se hai bisogno di un accesso granulare, è consigliabile suddividere i dati del bucket in più bucket.

Passaggi successivi