Best practice per Dataplex

Il presente documento fornisce linee guida e best practice per l'utilizzo Dataplex.

Scegli un progetto per il lake

Quando selezioni il progetto in cui ospitare il lake, considera quanto segue fattori:

  • Il progetto deve appartenere allo stesso Perimetro Controlli di servizio VPC come dati destinati a essere all'interno del lake.

  • L'account di servizio del lake richiede le autorizzazioni di amministratore Bucket Cloud Storage o set di dati BigQuery. Dataplex crea tabelle esterne in BigQuery per rilevate in Cloud Storage. Dataplex inoltre rende i metadati delle tabelle BigQuery disponibili e le tabelle rilevate Bucket Cloud Storage in un Dataproc Metastore. La Dataproc Metastore si trova all'interno del progetto di data lake.

Impostazioni e limitazioni di Cloud Storage

  • Regione: Dataplex supporta una singola regione bucket multiregionali in alcune regioni Google Cloud.

  • Classe di archiviazione: bucket Cloud Storage di tutti i tipi classi di archiviazione supportate. (Standard, Nearline, Coldline, Archive). Potrebbero essere addebitati costi aggiuntivi per il recupero dei dati per l'accesso o la scansione Dati Nearline, Coldline o Archive.

  • ACL bucket: Dataplex supporta i bucket Cloud Storage con solo controlli di accesso uniformi. I controlli dell'accesso granulari non sono supportati.

  • Pagamenti a carico del richiedente: bucket Cloud Storage con La funzionalità Pagamenti a carico del richiedente attiva è non supportati.

Indicazioni su sicurezza e autorizzazioni

Dataplex richiede l'aggiunta di Dataplex account di servizio come account di servizio amministrativo per i bucket e i set di dati gestiti.

Dataplex consente agli analisti di accedere ai bucket Cloud Storage e BigQuery in molti progetti. Per abilitare questo accesso, Dataplex richiede l'aggiunta del servizio Dataplex con controlli amministrativi per questi progetti.

Per il rilevamento, Dataplex aggiunge Account di servizio Dataproc Metastore a Cloud Storage bucket. Se hai un tuo cluster Dataproc Metastore, potresti voler fare in modo che il lake Dataplex utilizzi servizio Dataproc Metastore, un'opzione disponibile quando si crea e il tuo lake.

Se scegli di aggiungere un bucket Cloud Storage con l'accesso granulare a un lake, Dataplex fornirà l'accesso completo al bucket tramite il lake perché le autorizzazioni Dataplex vengono propagate a tutti gli oggetti di sincronizzare la directory di una VM con un bucket. Se hai bisogno di un accesso granulare, ti consigliamo di suddividere dei dati del bucket in più bucket.

Passaggi successivi