Panoramica di Dataplex

Dataplex è un data fabric che unifica i dati distribuiti e automatizza la gestione e la governance dei dati.

Dataplex consente di:

  • Creare un mesh di dati specifici di dominio tra i dati archiviati in più Progetti Google Cloud senza spostare i dati.
  • Governare e monitorare i dati in modo coerente con un unico set di autorizzazioni.
  • Scopri e seleziona i metadati in vari silos con le funzionalità di catalogo. Per ulteriori informazioni, consulta la panoramica di Dataplex Catalog.
  • Esegui query sui metadati in modo sicuro con BigQuery e strumenti open source, ad esempio SparkSQL, Presto e HiveQL.
  • Esegui attività relative alla qualità dei dati e alla gestione del loro ciclo di vita, incluso il serverless Attività Spark.
  • (Ritirata) Esplora i dati utilizzando ambienti Spark completamente gestiti e serverless, con accesso semplice a blocchi note e query SparkSQL.

Perché utilizzare Dataplex?

Le aziende dispongono di dati distribuiti tra data lake, data warehouse e data mart. Con Dataplex, puoi:

  • Dati rilevati
  • Seleziona i dati
  • Unifica i dati senza spostarli
  • Organizza i dati in base alle esigenze della tua attività
  • Gestisci, monitora e governa i dati a livello centralizzato

Dataplex consente di standardizzare e unificare metadati, criteri di sicurezza, governance, classificazione e gestione del ciclo di vita dei dati tra questi dati distribuiti.

immagine

Come funziona Dataplex

Dataplex gestisce i dati in un modo da non richiedere lo spostamento o la duplicazione dei dati. Man mano che identifichi nuove origini dati, Dataplex raccoglie i metadati sia per i dati strutturati che per quelli non strutturati, utilizzando i controlli di qualità dei dati integrati per migliorare l'integrità.

Dataplex registra automaticamente tutti i metadati in un metastore unificato. Puoi accedere a dati e metadati utilizzando vari servizi e strumenti tra cui:

  • ai servizi Google Cloud come BigQuery, Dataproc Metastore, Data Catalog (Catalogo dati).
  • Strumenti open source come Apache Spark e Presto.

Terminologia

Dataplex esegue l'astrazione dei sistemi di archiviazione dei dati sottostanti utilizzando i seguenti costrutti:

  • Lago: un costrutto logico che rappresenta un dominio di dati o un'unità aziendale. Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi configurare un lake per ogni reparto (ad esempio, vendita al dettaglio, vendite, finanza).

  • Zona: un sottodominio all'interno di un lake, utile per classificare i dati in base a quanto segue:

    • Fase: ad esempio, analisi dei dati non elaborati, curati e di destinazione e data science curata.
    • Utilizzo: ad esempio contratto dati.
    • Restrizioni: ad esempio, controlli di sicurezza e livelli di accesso degli utenti.

    Esistono due tipi di zone: non elaborate e selezionate.

    • Zona non elaborata: contiene dati nel loro formato non elaborato e non soggetti a rigoroso controllo dei tipi.

    • Zona organizzata: contiene dati puliti, formattati e pronti per Analytics. I dati sono colonnari, partizionati in Hive e archiviati in file Parquet, Avro, ORC o tabelle BigQuery. I dati vengono sottoposti type-control-ad esempio, per vietare l'uso di file CSV perché non sono altrettanto efficaci per l'accesso SQL.

  • Asset: mappato ai dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in una singola zona.

  • Entità: rappresenta i metadati per i dati strutturati e semistrutturati (tabella) e non strutturati (set di file).

Casi d'uso comuni

Questa sezione illustra i casi d'uso comuni di Dataplex.

Un data mesh incentrato sul dominio

Con questo tipo di mesh di dati, i dati sono organizzati in più domini all'interno di un'azienda, ad esempio Vendite, Clienti e Prodotti. La proprietà dei dati può essere decentralizzata. Puoi iscriverti ai dati di diversi domini. Per Ad esempio, data scientist e analisti di dati possono attingere da domini diversi raggiungere obiettivi di business come il machine learning e la business intelligence.

Nel diagramma seguente, i domini sono rappresentati da Dataplex e di proprietà di produttori di dati separati. i produttori di dati creano direttamente selezione e controllo dell'accesso nei propri domini. I consumatori di dati possono quindi richiedere accesso ai lake (domini) o alle zone (sottodomini) per le loro analisi.

Creazione di un mesh di dati

In questo caso, gli steward dei dati devono mantenere una visione olistica dell'intero panorama dei dati.

Questo diagramma include i seguenti elementi:

  • Dataplex: un mesh di più domini di dati.
  • Dominio: data lake per dati su vendite, clienti e prodotti.
  • Zona all'interno di un dominio: per singoli team o per fornire contratti di gestione dei dati.
  • Asset: dati archiviati in un bucket Cloud Storage o in un set di dati BigQuery, che possono trovarsi in un progetto Google Cloud distinto dal tuo mesh Dataplex.

Puoi estendere questo scenario suddividendo i dati all'interno delle zone in livelli non elaborati e selezionati. Puoi realizzare questo approccio creando zone per ogni permutazione di un dominio e dati non elaborati o selezionati:

  • Vendite non elaborate
  • Selezionate
  • Dati non elaborati dei clienti
  • A cura dei clienti
  • Prodotti non elaborati
  • Prodotti selezionati

Livelli di dati in base alla preparazione

Un altro caso d'uso comune è quando i dati sono accessibili solo ai data engineer, e in un secondo momento vengono perfezionati e resi disponibili a data scientist e analisti. Nella In questo caso, puoi configurare un lake per avere quanto segue:

  • Una zona non elaborata per i dati a cui i tecnici possono accedere.
  • Una zona organizzata per i dati a disposizione dei data scientist e analisti.

Lake e zone

Passaggi successivi