Best practice per Dataplex

Il presente documento fornisce linee guida e best practice per l'utilizzo Dataplex.

Scegli un progetto per il lake

Quando selezioni il progetto in cui ospitare il lake, considera quanto segue fattori:

  • Il progetto deve appartenere allo stesso perimetro dei Controlli di servizio VPC dei dati destinati a essere all'interno del lake.

  • L'account di servizio del lake richiede le autorizzazioni di amministratore Bucket Cloud Storage o set di dati BigQuery. Dataplex crea tabelle esterne in BigQuery per rilevate in Cloud Storage. Dataplex inoltre rende i metadati delle tabelle BigQuery disponibili e le tabelle rilevate Bucket Cloud Storage in un Dataproc Metastore. La Dataproc Metastore si trova all'interno del progetto di data lake.

Impostazioni e limitazioni di Cloud Storage

  • Regione: Dataplex supporta una singola regione bucket multiregionali in alcune regioni Google Cloud.

  • Classe di archiviazione: sono supportati i bucket Cloud Storage di tutte le classi di archiviazione (Standard, Nearline, Coldline, Archive). Potrebbero essere addebitati costi aggiuntivi per il recupero dei dati per l'accesso o la scansione Dati Nearline, Coldline o Archive.

  • ACL bucket: Dataplex supporta i bucket Cloud Storage con solo controlli di accesso uniformi. I controlli dell'accesso granulari non sono supportati.

  • Pagamenti a carico del richiedente: bucket Cloud Storage con La funzionalità Pagamenti a carico del richiedente attiva è non supportati.

Indicazioni su sicurezza e autorizzazioni

Dataplex richiede l'aggiunta degli account di servizio Dataplex come account di servizio amministrativo nei bucket e nei set di dati gestiti.

Dataplex consente agli analisti di accedere ai bucket Cloud Storage e ai set di dati BigQuery in molti progetti. Per abilitare questo accesso, Dataplex richiede l'aggiunta degli account di servizio Dataplex con controlli amministrativi a questi progetti.

Per il rilevamento, Dataplex aggiunge Account di servizio Dataproc Metastore a Cloud Storage bucket. Se hai un tuo cluster Dataproc Metastore, potresti voler fare in modo che il lake Dataplex utilizzi servizio Dataproc Metastore, un'opzione disponibile quando si crea e il tuo lake.

Se scegli di aggiungere un bucket Cloud Storage con l'accesso granulare a un lake, Dataplex fornirà l'accesso completo al bucket tramite il lake perché le autorizzazioni Dataplex vengono propagate a tutti gli oggetti di sincronizzare la directory di una VM con un bucket. Se hai bisogno di un accesso granulare, ti consigliamo di suddividere i dati del bucket in più bucket.

Passaggi successivi