Questo documento fornisce indicazioni e best practice per l'utilizzo di Dataplex.
Scegli un progetto per il tuo lago
Quando selezioni il progetto in cui ospitare il tuo lake, prendi in considerazione i seguenti fattori:
Il progetto deve appartenere allo stesso perimetro dei Controlli di servizio VPC dei dati destinati a essere all'interno del lake.
L'account di servizio del lake richiede autorizzazioni di amministratore sui bucket Cloud Storage o sui set di dati BigQuery. Dataplex crea tabelle esterne in BigQuery per le tabelle rilevate in Cloud Storage. Dataplex rende inoltre disponibili i metadati delle tabelle BigQuery e le tabelle rilevate nel bucket Cloud Storage in un Dataproc Metastore. Dataproc Metastore si trova all'interno del progetto del lake di dati.
Impostazioni e limitazioni di Cloud Storage
Regione: Dataplex supporta i bucket a regione singola e a più regioni in alcune regioni Google Cloud.
Classe di archiviazione: sono supportati i bucket Cloud Storage di tutte le classi di archiviazione (Standard, Nearline, Coldline, Archive). Potrebbero essere applicati costi aggiuntivi per il recupero dei dati per accedere o eseguire la scansione di dati Nearline, Coldline o Archive.
ACL del bucket: Dataplex supporta solo i bucket Cloud Storage con controlli di accesso uniformi. I controlli dell'accesso granulare non sono supportati.
Pagamenti a carico del richiedente: i bucket Cloud Storage con la funzionalità Pagamenti a carico del richiedente abilitata non sono supportati.
Informazioni sulla sicurezza e sulle autorizzazioni
Dataplex richiede l'aggiunta degli account di servizio Dataplex come account di servizio amministrativo nei bucket e nei set di dati gestiti.
Dataplex consente agli analisti di accedere ai bucket Cloud Storage e ai set di dati BigQuery in molti progetti. Per abilitare questo accesso, Dataplex richiede l'aggiunta degli account di servizio Dataplex con controlli amministrativi a questi progetti.
Per Discovery, Dataplex aggiunge l'account di servizio Dataproc Metastore ai bucket Cloud Storage. Se hai un tuo cluster Dataproc Metastore, potresti voler fare in modo che il lake Dataplex utilizzi il tuo servizio Dataproc Metastore, che è un'opzione quando crei il lake.
Se scegli di aggiungere un bucket Cloud Storage con accesso granulare a un lake, Dataplex fornirà l'accesso completo a quel bucket tramite il lake perché le autorizzazioni di Dataplex vengono propagate a tutti gli oggetti nel bucket. Se hai bisogno di un accesso granulare, ti consigliamo di suddividere i dati del bucket in più bucket.