Informazioni su lake e zone

Le aziende hanno dati spesso distribuiti in data lake, data warehouse e data mart. Dataplex Universal Catalog è un data fabric che unifica i dati distribuiti e semplifica la governance dei dati applicando costrutti logici a diversi asset di dati.

Dataplex Universal Catalog astrae i sistemi di archiviazione dei dati sottostanti utilizzando i seguenti costrutti: lake, zone, asset e voci.

Lake

Un lake è un costrutto logico che rappresenta un dominio di dati o un'unità aziendale. Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi configurare un lake per ogni reparto (ad esempio, vendita al dettaglio, vendite, finanza).

Zone

Una zona è un sottodominio all'interno di un lake, utile per classificare i dati in base a quanto segue:

  • Fase: ad esempio, dati di destinazione, non elaborati, analisi dati curata e data science curata
  • Utilizzo: ad esempio, contratto di dati
  • Limitazioni: ad esempio, controlli di sicurezza e livelli di accesso degli utenti

Esistono due tipi di zone:

  • Zona non elaborata: contiene dati nel formato non elaborato e non soggetti a un rigoroso controllo del tipo.

  • Zona curata: contiene dati puliti, formattati e pronti per l'analisi. I dati sono in formato colonnare, partizionati in Hive e archiviati in file Parquet, Avro, Orc o tabelle BigQuery. I dati vengono sottoposti a controllo del tipo, ad esempio per vietare l'utilizzo di file CSV perché non funzionano altrettanto bene per l'accesso SQL.

Asset

Un asset esegue il mapping dei dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in un'unica zona.

Voci

Un'entità rappresenta i metadati per i dati strutturati e semistrutturati (ad esempio, una tabella) e i dati non strutturati (ad esempio, un insieme di file).

Passaggi successivi