Le aziende hanno dati spesso distribuiti in data lake, data warehouse e data mart. Dataplex Universal Catalog è un data fabric che unifica i dati distribuiti e semplifica la governance dei dati applicando costrutti logici a diversi asset di dati.
Dataplex Universal Catalog astrae i sistemi di archiviazione dei dati sottostanti utilizzando i seguenti costrutti: lake, zone, asset e voci.
Lake
Un lake è un costrutto logico che rappresenta un dominio di dati o un'unità aziendale. Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi configurare un lake per ogni reparto (ad esempio, vendita al dettaglio, vendite, finanza).
Zone
Una zona è un sottodominio all'interno di un lake, utile per classificare i dati in base a quanto segue:
- Fase: ad esempio, dati di destinazione, non elaborati, analisi dati curata e data science curata
- Utilizzo: ad esempio, contratto di dati
- Limitazioni: ad esempio, controlli di sicurezza e livelli di accesso degli utenti
Esistono due tipi di zone:
Zona non elaborata: contiene dati nel formato non elaborato e non soggetti a un rigoroso controllo del tipo.
Zona curata: contiene dati puliti, formattati e pronti per l'analisi. I dati sono in formato colonnare, partizionati in Hive e archiviati in file Parquet, Avro, Orc o tabelle BigQuery. I dati vengono sottoposti a controllo del tipo, ad esempio per vietare l'utilizzo di file CSV perché non funzionano altrettanto bene per l'accesso SQL.
Asset
Un asset esegue il mapping dei dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in un'unica zona.
Voci
Un'entità rappresenta i metadati per i dati strutturati e semistrutturati (ad esempio, una tabella) e i dati non strutturati (ad esempio, un insieme di file).
Passaggi successivi
- Organizza i tuoi dati in lake e zone.
- Proteggi il tuo lake.
- Visualizza i metadati rilevati utilizzando la console Google Cloud .
- Visualizza i metadati rilevati utilizzando l'API.