Panoramica di Dataplex

Dataplex è un data fabric che unifica i dati distribuiti e automatizza la gestione e la governance dei dati.

Dataplex consente di:

  • Creare un mesh di dati specifici di dominio tra quelli archiviati in più progetti Google Cloud, senza che debbano essere spostati.
  • Governare e monitorare i dati in modo coerente con un unico set di autorizzazioni.
  • Trova e seleziona i metadati in vari silos utilizzando le funzionalità di catalogo. Per ulteriori informazioni, consulta la panoramica di Dataplex Catalog.
  • Esegui query sui metadati in modo sicuro con BigQuery e strumenti open source, come SparkSQL, Presto e HiveQL.
  • Esegui attività relative alla qualità dei dati e alla gestione del loro ciclo di vita, comprese le attività Spark serverless.
  • Esplora i dati utilizzando ambienti Spark completamente gestiti e serverless con l'accesso a blocchi note e query SparkSQL.

Perché utilizzare Dataplex?

Le aziende dispongono di dati distribuiti tra data lake, data warehouse e data mart. Con Dataplex, puoi fare quanto segue:

  • Dati rilevati
  • Seleziona i dati
  • Unifica i dati senza spostarli
  • Organizza i dati in base alle esigenze della tua attività
  • Gestisci, monitora e governa i dati a livello centralizzato

Dataplex consente di standardizzare e unificare metadati, criteri di sicurezza, governance, classificazione e gestione del ciclo di vita dei dati tra questi dati distribuiti.

immagine

Come funziona Dataplex

Dataplex gestisce i dati in un modo da non richiedere lo spostamento dei dati o duplicazione. Man mano che identifichi nuove origini dati, Dataplex raccoglie i metadati sia per i dati strutturati che per quelli non strutturati, utilizzando i controlli di qualità dei dati integrati per migliorare l'integrità.

Dataplex registra automaticamente tutti i metadati in un metastore unificato. Puoi accedere a dati e metadati utilizzando vari servizi e strumenti, tra cui:

  • ai servizi Google Cloud come BigQuery, Dataproc Metastore, Data Catalog (Catalogo dati).
  • Strumenti open source, come Apache Spark e Presto.

Terminologia

Dataplex esegue l'astrazione dei sistemi di archiviazione dei dati sottostanti utilizzando i seguenti costrutti:

  • Lake: un costrutto logico che rappresenta un dominio dati o un'unità aziendale. Per Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi impostare un lake per ogni reparto vendite (ad esempio Retail, Vendite, Finanza).

  • Zona: un sottodominio all'interno di un lake, utile per classificare i dati in base a le seguenti:

    • Fase: ad esempio, analisi dei dati non elaborati, curati e di destinazione e data science curata.
    • Utilizzo: ad esempio, contratto di dati.
    • Restrizioni: ad esempio, controlli di sicurezza e livelli di accesso degli utenti.

    Esistono due tipi di zone: non elaborate e selezionate.

    • Zona non elaborata: contiene dati nel formato non elaborato e non soggetti a un rigoroso controllo del tipo.

    • Zona organizzata: contiene dati puliti, formattati e pronti per Analytics. I dati sono colonnari, partizionati in Hive e archiviati in file Parquet, Avro, ORC o tabelle BigQuery. I dati vengono sottoposti a controllo di tipo, ad esempio per vietare l'uso di file CSV perché hanno un rendimento inferiore per l'accesso SQL.

  • Asset: mappa i dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in un in una singola zona.

  • Entità: rappresenta i metadati per i dati strutturati e semistrutturati (tabella) e non strutturati (set di file).

Casi d'uso comuni

Questa sezione illustra i casi d'uso comuni di Dataplex.

Un mesh di dati incentrato sul dominio

Con questo tipo di mesh di dati, i dati vengono organizzati in più domini all'interno di un per le aziende, ad esempio Vendite, Clienti e Prodotti. La proprietà dei dati può essere decentralizzata. Puoi iscriverti ai dati di diversi domini. Per Ad esempio, data scientist e analisti di dati possono attingere da domini diversi raggiungere obiettivi di business come il machine learning e la business intelligence.

Nel diagramma seguente, i domini sono rappresentati da Dataplex e di proprietà di produttori di dati separati. I produttori di dati sono proprietari della creazione, della selezione e del controllo dell'accesso nei propri domini. I consumatori di dati possono quindi richiedere accesso ai lake (domini) o alle zone (sottodomini) per le loro analisi.

Creazione di un mesh di dati

In questo caso, gli steward dei dati devono mantenere una visione olistica dell'intero panorama dei dati.

Questo diagramma include i seguenti elementi:

  • Dataplex: un mesh di più domini di dati.
  • Dominio: data lake per dati su vendite, clienti e prodotti.
  • Zona all'interno di un dominio: per singoli team o per fornire dati gestiti contratti.
  • Asset: dati archiviati in un bucket Cloud Storage o in un set di dati BigQuery, che può esistere in un ambiente Google Cloud separato dal tuo mesh Dataplex.

Puoi estendere questo scenario suddividendo i dati all'interno delle zone in livelli non elaborati e selezionati. Puoi realizzare questo approccio creando zone per ogni permutazione di un dominio e dati non elaborati o selezionati:

  • Dati non elaborati sulle vendite
  • Vendite a cura di
  • Dati non elaborati dei clienti
  • A cura dei clienti
  • Prodotti non elaborati
  • Prodotti curati

Livelli di dati in base alla preparazione

Un altro caso d'uso comune è quando i dati sono accessibili solo ai data engineer, e in un secondo momento vengono perfezionati e resi disponibili a data scientist e analisti. In questo caso, puoi configurare un lake in modo che abbia quanto segue:

  • Una zona non elaborata per i dati a cui possono accedere gli ingegneri.
  • Una zona organizzata per i dati a disposizione dei data scientist e analisti.

Lake e zone

Passaggi successivi