Dataplex è un data fabric che unifica i dati distribuiti e automatizza la gestione e la governance dei dati per tali dati.
Dataplex consente di:
- Crea un data mesh specifico per il dominio sui dati archiviati in più progetti Google Cloud, senza dover spostare i dati.
- Gestisci e monitora i dati in modo coerente con un unico set di autorizzazioni.
- Scopri e organizza i metadati in vari silos utilizzando le funzionalità del catalogo. Per ulteriori informazioni, consulta la panoramica di Data Catalog.
- Esegui query sui metadati in modo sicuro utilizzando BigQuery e strumenti open source come SparkSQL, Presto e HiveQL.
- Esegui attività di gestione della qualità dei dati e del ciclo di vita dei dati, comprese le attività Spark serverless.
- Esplora i dati utilizzando ambienti Spark serverless e completamente gestiti, con accesso semplice ai blocchi note e alle query SparkSQL.
Perché utilizzare Dataplex?
Le aziende dispongono di dati distribuiti in data lake, data warehouse e data mart. Con Dataplex puoi fare quanto segue:
- Dati rilevati
- Seleziona i dati
- Unifica i dati senza spostarli
- Organizza i dati in base alle tue esigenze aziendali
- Gestisci, monitora e governa i dati a livello centrale
Dataplex consente di standardizzare e unificare metadati, criteri di sicurezza, governance, classificazione e gestione del ciclo di vita dei dati in questi dati distribuiti.
Come funziona Dataplex
Dataplex gestisce i dati in un modo che non richiede lo spostamento o la duplicazione dei dati. Quando identifichi nuove origini dati, Dataplex raccoglie i metadati per i dati strutturati e non strutturati, utilizzando controlli di qualità dei dati integrati per migliorare l'integrità.
Dataplex registra automaticamente tutti i metadati in un metastore unificato. Puoi accedere a dati e metadati utilizzando vari servizi e strumenti, tra cui:
- i servizi Google Cloud, come BigQuery, Dataproc Metastore, Data Catalog.
- Strumenti open source, come Apache Spark e Presto.
Terminologia
Dataplex astrae i sistemi di archiviazione dati sottostanti utilizzando i seguenti costrutti:
Lago: un costrutto logico che rappresenta un dominio di dati o una business unit. Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi configurare un lake per ogni reparto (ad esempio vendita al dettaglio, vendite, finanza).
Zona: un sottodominio all'interno di un lake, utile per classificare i dati in base a quanto segue:
- Fase: ad esempio atterraggio, analisi di dati non elaborati e selezionati e data science selezionata.
- Utilizzo: ad esempio, contratto dati.
- Limitazioni: ad esempio, controlli di sicurezza e livelli di accesso degli utenti.
Le zone possono essere di due tipi: non elaborate e selezionate.
Zona non elaborata: contiene dati in formato non elaborato e non soggetti a rigorosi controlli del tipo.
Zona curata: contiene dati puliti, formattati e pronti per l'analisi. I dati sono a colonne, partizionati Hive e archiviati in file Parquet, Avro, Orc o tabelle BigQuery. I dati vengono sottoposti a controllo del tipo, ad esempio per vietare l'uso di file CSV perché non hanno buone prestazioni per l'accesso SQL.
Asset: esegue la mappatura ai dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in un'unica zona.
Entità: rappresenta i metadati per i dati strutturati e semistrutturati (tabella) e i dati non strutturati (set di file).
Casi d'uso comuni
Questa sezione descrive i casi d'uso comuni per l'utilizzo di Dataplex.
Un data mesh incentrato sul dominio
Con questo tipo di data mesh, i dati sono organizzati in più domini all'interno di un'azienda, ad esempio Vendite, Clienti e Prodotti. La proprietà dei dati può essere decentralizzata. Puoi iscriverti ai dati di domini diversi. Ad esempio, data scientist e analisti di dati possono estrarre da diversi domini per raggiungere obiettivi aziendali come machine learning e business intelligence.
Nel diagramma seguente, i domini sono rappresentati da laghi Dataplex e sono di proprietà di produttori di dati separati. I producer di dati sono proprietari di creazione, selezione econtrollo dell'accessoo nei loro domini. I consumatori dei dati possono quindi richiedere l'accesso ai data lake (domini) o alle zone (sottodomini) per la loro analisi.
In questo caso, i gestori dei dati devono mantenere una visione olistica dell'intero panorama dei dati.
Questo diagramma include i seguenti elementi:
- Dataplex: un mesh di più domini di dati.
- Dominio: lake per vendite, clienti e dati di prodotto.
- Zona all'interno di un dominio: per singoli team o per fornire contratti di dati gestiti.
- Asset: dati archiviati in un bucket Cloud Storage o in un set di dati BigQuery, che possono esistere in un progetto Google Cloud separato dal tuo mesh Dataplex.
Puoi estendere questo scenario suddividendo i dati all'interno delle zone in livelli non elaborati e selezionati. Puoi raggiungere questo approccio creando zone per ogni permutazione di un dominio e dati non elaborati o selezionati:
- Vendite non elaborate
- Vendite selezionate
- Clienti non elaborati
- Clienti selezionati
- Prodotti non elaborati
- Prodotti selezionati
Suddivisione dei dati in livelli in base all'idoneità
Un altro caso d'uso comune si verifica quando i dati sono accessibili solo ai data engineer per poi essere perfezionati e resi disponibili a data scientist e analisti. In questo caso, puoi configurare un lake in modo che abbia quanto segue:
- Una zona non elaborata per i dati a cui possono accedere i tecnici.
- Una zona selezionata per i dati disponibile per data scientist e analisti.
Passaggi successivi
- Inizia a utilizzare Dataplex
- Crea un data mesh
- Crea un lake
- Scopri le funzionalità del catalogo in Dataplex