Puoi utilizzare Dataplex per creare un'architettura a mesh di dati. Questa guida spiega come utilizzare le funzionalità di Dataplex, come lake, zone e asset, per creare un mesh di dati.
Un data mesh è un approccio organizzativo e tecnico che decentralizza la proprietà dei dati tra i proprietari dei dati di dominio. Questi proprietari forniscono i dati come prodotto in modo standard e facilitano la comunicazione tra le diverse parti dell' organizzazione per distribuire i set di dati in diverse località. Scopri di più sulle architetture data mesh.
Obiettivi
In questa guida utilizzi le entità Dataplex per creare un'architettura a mesh di dati:
- Crea un lake Dataplex che funge da dominio per la tua mesh di dati.
- Aggiungi al tuo lake zone che rappresentano i singoli team all'interno di ogni dominio e forniscono contratti di dati gestiti.
- Allega asset che mappano i dati archiviati in Cloud Storage.
Costi
In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Una volta completate le attività descritte in questo documento, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, consulta la pagina Pulizia.
Prima di iniziare
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
Abilita l'API Dataplex.
Crea un bucket Cloud Storage
Ti serve un bucket Cloud Storage per archiviare le risorse di dati della tua rete di dati.
Per creare un bucket Cloud Storage, segui le istruzioni riportate in Creare un bucket Cloud Storage. Quando lo fai, tieni presente quanto segue:
- Assegna un nome al bucket.
- In Tipo di località, scegli Regione e seleziona us-central1 (Iowa) dal menu.
Crea un dominio
Nella console Google Cloud, vai alla pagina Dataplex.
Vai alla visualizzazione Gestisci.
Fai clic su Crea per creare un nuovo lake, che fungerà da mesh di dati.
Nel campo Nome visualizzato, inserisci
My data mesh
.In Regione, seleziona
us-central1
.Seleziona il servizio Dataproc Metastore che hai creato e configurato in precedenza come metastore associato.
Fai clic su Crea.
Creare zone nel lake
Dopo aver creato un dominio creando un lake Dataplex, puoi ospitare contratti di dati gestiti e singoli team all'interno del dominio utilizzando le zone. Esistono due tipi di zone:
Le zone non elaborate vengono in genere utilizzate per archiviare i dati in qualsiasi formato da origini esterne in Cloud Storage. Le zone non elaborate sono utili per i dati che richiedono un'ulteriore elaborazione prima di essere pronti per il consumo.
Le zone selezionate vengono utilizzate per i dati strutturati in Cloud Storage che devono essere conformi a determinati formati di file e sono organizzati in un layout di directory compatibile con Hive. Sono più utili per i dati pronti per l'utilizzo e l'analisi.
Ogni dominio (ad es. sales
, customers
, products
) deve avere almeno una zona non elaborata e una zona selezionata.
Le zone aggiuntive vengono utilizzate per gestire i contratti di dati tra i team o per fornire un'analisi più granulare dei team all'interno di un determinato dominio. Ad esempio, la gestione dell'inventario all'interno del dominio del prodotto. I proprietari dei dati sono in grado di gestire i dati all'interno del proprio dominio e di accedervi.
Nella console Google Cloud, vai alla visualizzazione Gestisci di Dataplex.
Fai clic sul nome del lago (
My data mesh
) a cui vuoi aggiungere una zona.Nella scheda Zone, fai clic su
Aggiungi zona.Nel campo Nome visualizzato, inserisci
My sub domain
. Dataplex genera automaticamente un ID per la tua zona.In Tipo, seleziona Zona non elaborata.
Fai clic su Crea.
Collega gli asset alle zone
Collega gli asset di dati alla tua zona. Un asset dati, ovvero le risorse di archiviazione che contengono i tuoi dati, può essere un bucket Cloud Storage o un set di dati BigQuery. Questo è il passaggio finale per la creazione dell'architettura mesh di dati.
Nella visualizzazione Gestisci di Dataplex, fai clic sul lake che hai creato (
My data mesh
).Nella scheda Zone, fai clic sulla zona (
My sub domain
) a cui aggiungere l'asset.Nella scheda Asset, fai clic su
Aggiungi asset.Fai clic su Aggiungi un asset.
In Tipo, seleziona Bucket Cloud Storage.
Nel campo Nome visualizzato , inserisci
Data mesh asset
. Dataplex genera automaticamente un ID risorsa.Nel campo Bucket, fai clic su Sfoglia.
- Seleziona il bucket dall'elenco.
- Fai clic su Seleziona.
Fai clic su Fine e poi su Continua.
Fai clic su Continua per accettare le Impostazioni avanzate predefinite.
Fai clic su Invia.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina il progetto
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Eliminare l'architettura del data mesh
Nella console Google Cloud, vai alla visualizzazione Gestisci di Dataplex.
In corrispondenza del lago che vuoi eliminare, fai clic su
Visualizza altro e poi su Elimina.Per confermare l'azione, inserisci
delete
e fai clic su Elimina lake.
Passaggi successivi
- Scopri di più sulle attività di elaborazione dei dati
- Scopri di più sul rilevamento dei dati
- Scopri di più sull'utilizzo delle attività relative alla qualità dei dati