Il presente documento fornisce linee guida e best practice per l'utilizzo Dataplex.
Scegli un progetto per il lake
Quando selezioni il progetto in cui ospitare il lake, considera quanto segue fattori:
Il progetto deve appartenere allo stesso perimetro dei Controlli di servizio VPC dei dati destinati a essere all'interno del lake.
L'account di servizio del lake richiede le autorizzazioni di amministratore Bucket Cloud Storage o set di dati BigQuery. Dataplex crea tabelle esterne in BigQuery per rilevate in Cloud Storage. Dataplex inoltre rende i metadati delle tabelle BigQuery disponibili e le tabelle rilevate Bucket Cloud Storage in un Dataproc Metastore. La Dataproc Metastore si trova all'interno del progetto di data lake.
Impostazioni e limitazioni di Cloud Storage
Regione: Dataplex supporta una singola regione bucket multiregionali in alcune regioni Google Cloud.
Classe di archiviazione: sono supportati i bucket Cloud Storage di tutte le classi di archiviazione (Standard, Nearline, Coldline, Archive). Potrebbero essere addebitati costi aggiuntivi per il recupero dei dati per l'accesso o la scansione Dati Nearline, Coldline o Archive.
ACL bucket: Dataplex supporta i bucket Cloud Storage con solo controlli di accesso uniformi. I controlli dell'accesso granulari non sono supportati.
Pagamenti a carico del richiedente: bucket Cloud Storage con La funzionalità Pagamenti a carico del richiedente attiva è non supportati.
Indicazioni su sicurezza e autorizzazioni
Dataplex richiede l'aggiunta degli account di servizio Dataplex come account di servizio amministrativo nei bucket e nei set di dati gestiti.
Dataplex consente agli analisti di accedere ai bucket Cloud Storage e ai set di dati BigQuery in molti progetti. Per abilitare questo accesso, Dataplex richiede l'aggiunta degli account di servizio Dataplex con controlli amministrativi a questi progetti.
Per il rilevamento, Dataplex aggiunge Account di servizio Dataproc Metastore a Cloud Storage bucket. Se hai un tuo cluster Dataproc Metastore, potresti voler fare in modo che il lake Dataplex utilizzi servizio Dataproc Metastore, un'opzione disponibile quando si crea e il tuo lake.
Se scegli di aggiungere un bucket Cloud Storage con l'accesso granulare a un lake, Dataplex fornirà l'accesso completo al bucket tramite il lake perché le autorizzazioni Dataplex vengono propagate a tutti gli oggetti di sincronizzare la directory di una VM con un bucket. Se hai bisogno di un accesso granulare, ti consigliamo di suddividere i dati del bucket in più bucket.