Puoi utilizzare Dataplex per creare un'architettura di data mesh. Questa guida mostra come utilizzare le funzionalità di Dataplex, come lake, zone e asset, per creare un data mesh.
Un data mesh è un approccio organizzativo e tecnico che decentralizza la proprietà dei dati tra i proprietari dei dati di dominio. Questi proprietari forniscono i dati come prodotto in modo standard e facilitano la comunicazione tra diverse parti dell'organizzazione per distribuire i set di dati in diverse località. Scopri di più sulle architetture di data mesh.
Obiettivi
Seguendo questa guida, utilizzerai le entità Dataplex per creare un'architettura di data mesh:
- Crea un lake Dataplex che agirà come dominio per il tuo data mesh.
- Aggiungi al lake alcune zone che rappresenteranno i singoli team all'interno di ogni dominio e fornirà contratti per i dati gestiti.
- Associa asset mappati ai dati archiviati in Cloud Storage.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Una volta completate le attività descritte in questo documento, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, consulta la pagina Pulizia.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Abilita l'API Dataplex.
Crea un bucket Cloud Storage
È necessario un bucket Cloud Storage per archiviare gli asset di dati del data mesh.
Segui i passaggi per creare un bucket Cloud Storage e:
- Assegna un nome al bucket.
- In Tipo di località, scegli Regione e seleziona us-central1 (Iowa) dal menu a discesa.
Crea un dominio
Nella console Google Cloud, vai alla pagina Dataplex:
Vai alla visualizzazione Gestisci.
Fai clic su Crea per creare un nuovo lake che fungerà da data mesh.
Nel campo Nome visualizzato, inserisci
My data mesh
.In Regione, seleziona
us-central1
.Seleziona il servizio Dataproc Metastore che hai creato e configurato in precedenza come metastore associato.
Fai clic su Crea.
Crea zone nel lake
Dopo aver creato un dominio con la creazione di un lake Dataplex, puoi ospitare contratti per i dati gestiti e singoli team all'interno del dominio utilizzando le zone. Esistono due tipi di zone:
Le zone non elaborate vengono generalmente utilizzate per archiviare dati in qualsiasi formato da origini esterne in Cloud Storage. Le zone non elaborate sono utili per i dati che richiedono un'ulteriore elaborazione prima di essere pronti per l'uso.
Le zone curate vengono utilizzate per i dati strutturati in Cloud Storage che devono essere conformi a determinati formati file e sono organizzate in un layout di directory compatibile con Hive. Sono più utili per i dati pronti per il consumo e l'analisi.
Ogni dominio (ad esempio sales
, customers
, products
) deve avere almeno una zona non elaborata e una zona selezionata.
Le zone aggiuntive vengono utilizzate per gestire i contratti dati tra i team o per fornire un'analisi più granulare dei team all'interno di un determinato dominio. Ad esempio, la gestione dell'inventario all'interno del dominio del prodotto. I proprietari dei dati possono gestire i dati all'interno del loro dominio e accedervi.
In Dataplex nella console Google Cloud, vai alla visualizzazione Gestisci.
Fai clic sul nome del lake (
My data mesh
) a cui vuoi aggiungere una zona.Nella scheda Zone, fai clic su
Aggiungi zona.Nel campo Nome visualizzato, inserisci
My sub domain
. Dataplex genera automaticamente un ID per la tua zona.NOTA: il nome della zona diventa il nome di un set di dati BigQuery. Di conseguenza, tutte le zone ospitate nello stesso progetto Google Cloud devono avere un ID univoco, anche se esistono all'interno di data lake diversi.
In Tipo, seleziona Zona non elaborata.
Fai clic su Crea.
Collegare asset alle zone
Allega asset di dati alla tua zona. Un asset di dati, ovvero le risorse di archiviazione che contengono i tuoi dati, può essere un bucket Cloud Storage o un set di dati BigQuery. Questo è il passaggio finale per creare l'architettura del data mesh.
Nella visualizzazione Gestisci di Dataplex, fai clic sul lake che hai creato (
My data mesh
).Nella scheda Zone, fai clic sulla zona (
My sub domain
) a cui aggiungere l'asset.Nella scheda Asset, fai clic su
Aggiungi asset.Fai clic su Aggiungi un asset.
In Tipo, seleziona Bucket Cloud Storage.
Nel campo Nome visualizzato , inserisci
Data mesh asset
. Dataplex genera automaticamente un ID risorsa per te.Nel campo Bucket, fai clic su Sfoglia.
- Seleziona il bucket dall'elenco.
- Fai clic su Seleziona.
Fai clic su Fine e poi su Continua.
Fai clic su Continua per accettare le Impostazioni avanzate predefinite.
Fai clic su Invia per aggiungere il bucket Cloud Storage come asset di dati alla tua zona.
Esegui la pulizia
Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina il progetto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Elimina l'architettura del data mesh
In Dataplex nella console Google Cloud, vai alla visualizzazione Gestisci.
In corrispondenza del lake che vuoi eliminare, fai clic su
Mostra altro, quindi fai clic su Elimina.Conferma l'azione inserendo
delete
e fai clic su Elimina lake.
Passaggi successivi
- Scopri di più sulle attività di trattamento dati
- Scopri di più sulla scoperta dei dati
- Scopri di più sull'utilizzo delle attività relative alla qualità dei dati