Panoramica di Dataplex

Dataplex è un data fabric che unifica i dati distribuiti e automatizza la gestione e la governance dei dati.

Dataplex consente di:

  • Crea un mesh di dati specifico del dominio per tutti i dati archiviati in più progetti Google Cloud, senza alcun trasferimento di dati.
  • Regola e monitora i dati in modo coerente con un unico insieme di autorizzazioni.
  • Scopri e organizza i metadati in vari silos utilizzando le funzionalità del catalogo. Per ulteriori informazioni, consulta la panoramica di Data Catalog.
  • Esegui query sicure sui metadati utilizzando BigQuery e strumenti open source come SparkSQL, Presto e HiveQL.
  • Esegui attività di gestione della qualità dei dati e del ciclo di vita dei dati, incluse le attività serverless di Spark.
  • Esplora i dati utilizzando ambienti Spark serverless e completamente gestiti con accesso semplice ai blocchi note e alle query SparkSQL.

Perché utilizzare Dataplex?

Le aziende hanno dati distribuiti tra data lake, data warehouse e data mart. Utilizzando Dataplex, puoi:

  • Dati rilevati
  • Seleziona dati
  • Unifica i dati senza spostare alcun dato
  • Organizza i dati in base alle tue esigenze aziendali
  • Gestire, monitorare e gestire centralmente i dati

Dataplex consente di standardizzare e unificare i metadati, i criteri di sicurezza, la governance, la classificazione e la gestione del ciclo di vita dei dati in tutti i dati distribuiti.

immagine

Come funziona Dataplex

Dataplex gestisce i dati in un modo che non richiede lo spostamento o la duplicazione dei dati. Quando identifichi nuove origini dati, Dataplex raccoglie i metadati sia per i dati strutturati che per quelli non strutturati, utilizzando i controlli di qualità dei dati integrati per migliorare l'integrità.

Dataplex registra automaticamente tutti i metadati in un metastore unificato. Puoi accedere a dati e metadati utilizzando vari servizi e strumenti, tra cui:

  • I servizi Google Cloud, come BigQuery, Dataproc Metastore e Data Catalog.
  • Strumenti open source, come Apache Spark e Presto.

Terminologia

Dataplex astrae i sistemi di archiviazione dati sottostanti utilizzando i seguenti costrutti:

  • Lake: un costrutto logico che rappresenta un dominio di dati o un'unità aziendale. Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi configurare un lake per ogni reparto (ad esempio Retail, Vendite, Finanza).

  • Zona: un sottodominio all'interno di un lake, utile per classificare i dati come segue:

    • Fase: ad esempio destinazione, analisi dei dati, dati non elaborati e data science selezionate.
    • Utilizzo: ad esempio, contratto di dati.
    • Limitazioni: controlli di sicurezza e livelli di accesso utente.

    Le zone sono di due tipi: non elaborate e selezionate.

    • Zona non elaborata: contiene i dati non elaborati nel formato e non soggetti a un controllo rigoroso del tipo.

    • Zona organizzata: contiene i dati puliti, formattati e pronti per l'analisi. I dati sono suddivisi in colonne, suddivisi in Hive e archiviati in tabelle Parquet, Avro, Orc o BigQuery. I dati vengono sottoposti a controllo dei tipi, ad esempio per vietare l'uso dei file CSV perché non hanno lo stesso rendimento per l'accesso SQL.

  • Asset: esegue la mappatura ai dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in un'unica zona.

  • Entità: rappresenta i metadati per dati strutturati e semistrutturati (tabella) e dati non strutturati (set di file).

Casi d'uso comuni

Questa sezione descrive i casi d'uso comuni per l'utilizzo di Dataplex.

Un mesh di dati incentrato sul dominio

Con questo tipo di mesh di dati, i dati vengono organizzati in più domini all'interno di un'azienda, ad esempio vendite, clienti e prodotti. La proprietà dei dati può essere decentralizzata. Puoi iscriverti a dati di diversi domini. Ad esempio, i data scientist e gli analisti di dati possono estrarre dati da domini diversi per soddisfare gli obiettivi commerciali come machine learning e business intelligence.

Nel diagramma seguente, i domini sono rappresentati dai lake Dataplex e sono di proprietà di produttori di dati separati. I producer di dati sono responsabili della creazione, della selezione e controllo dell'accesso nei propri domini. I consumatori di dati possono quindi richiedere l'accesso ai lake (domini) o alle zone (sottodomini) per la loro analisi.

Creazione di un mesh di dati

In questo caso, i gestori dei dati devono mantenere una visione olistica dell'intero panorama dei dati.

Questo diagramma include i seguenti elementi:

  • Dataplex: un mesh di più domini di dati.
  • Dominio: data lake per le vendite, i clienti e i dati di prodotto.
  • Zona all'interno di un dominio: per singoli team o per fornire contratti di dati gestiti.
  • Asset: dati archiviati in un bucket Cloud Storage o in un set di dati BigQuery, che può esistere in un progetto Google Cloud separato dal mesh Dataplex.

Puoi estendere questo scenario suddividendo i dati che si trovano all'interno delle zone in livelli non elaborati e selezionati. Puoi ottenere questo approccio creando zone per ogni modifica di un dominio e dati non elaborati o selezionati:

  • Vendite non elaborate
  • Vendite curate
  • Clienti non elaborati
  • Clienti selezionati
  • Prodotti non elaborati
  • Prodotti selezionati

Suddivisione dei dati in base all'idoneità

Un altro caso d'uso comune è quando i dati sono accessibili solo ai data engineer e in seguito vengono perfezionati e resi disponibili a data scientist e analisti. In questo caso, puoi configurare un lake in modo da avere:

  • Una zona non elaborata per i dati a cui i tecnici possono accedere.
  • Una zona organizzata per i dati a disposizione dei data scientist e degli analisti.

Laghi e zone

Passaggi successivi