Crea un data mesh


Puoi utilizzare Dataplex per creare un'architettura di data mesh. Questa guida mostra come utilizzare le funzionalità di Dataplex, come lake, zone e asset, per creare un data mesh.

Un data mesh è un approccio organizzativo e tecnico che decentralizza la proprietà dei dati tra i proprietari dei dati di dominio. Questi proprietari forniscono i dati come prodotto in modo standard e facilitano la comunicazione tra diverse parti dell'organizzazione per distribuire i set di dati in diverse località. Scopri di più sulle architetture di data mesh.

Obiettivi

Seguendo questa guida, utilizzerai le entità Dataplex per creare un'architettura di data mesh:

  • Crea un lake Dataplex che agirà come dominio per il tuo data mesh.
  • Aggiungi al lake alcune zone che rappresenteranno i singoli team all'interno di ogni dominio e fornirà contratti per i dati gestiti.
  • Associa asset mappati ai dati archiviati in Cloud Storage.

Costi

In questo documento utilizzi i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi basata sull'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Una volta completate le attività descritte in questo documento, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, consulta la pagina Pulizia.

Prima di iniziare

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Abilita l'API Dataplex.

    Abilita l'API Dataplex

  4. Crea un servizio Dataproc Metastore.

Crea un bucket Cloud Storage

È necessario un bucket Cloud Storage per archiviare gli asset di dati del data mesh.

Segui i passaggi per creare un bucket Cloud Storage e:

  • Assegna un nome al bucket.
  • In Tipo di località, scegli Regione e seleziona us-central1 (Iowa) dal menu a discesa.

Crea un dominio

  1. Nella console Google Cloud, vai alla pagina Dataplex:

    Vai a Dataplex

  2. Vai alla visualizzazione Gestisci.

  3. Fai clic su Crea per creare un nuovo lake che fungerà da data mesh.

  4. Nel campo Nome visualizzato, inserisci My data mesh.

  5. In Regione, seleziona us-central1.

  6. Seleziona il servizio Dataproc Metastore che hai creato e configurato in precedenza come metastore associato.

  7. Fai clic su Crea.

Crea zone nel lake

Dopo aver creato un dominio con la creazione di un lake Dataplex, puoi ospitare contratti per i dati gestiti e singoli team all'interno del dominio utilizzando le zone. Esistono due tipi di zone:

  • Le zone non elaborate vengono generalmente utilizzate per archiviare dati in qualsiasi formato da origini esterne in Cloud Storage. Le zone non elaborate sono utili per i dati che richiedono un'ulteriore elaborazione prima di essere pronti per l'uso.

  • Le zone curate vengono utilizzate per i dati strutturati in Cloud Storage che devono essere conformi a determinati formati file e sono organizzate in un layout di directory compatibile con Hive. Sono più utili per i dati pronti per il consumo e l'analisi.

Ogni dominio (ad esempio sales, customers, products) deve avere almeno una zona non elaborata e una zona selezionata.

Le zone aggiuntive vengono utilizzate per gestire i contratti dati tra i team o per fornire un'analisi più granulare dei team all'interno di un determinato dominio. Ad esempio, la gestione dell'inventario all'interno del dominio del prodotto. I proprietari dei dati possono gestire i dati all'interno del loro dominio e accedervi.

  1. In Dataplex nella console Google Cloud, vai alla visualizzazione Gestisci.

  2. Fai clic sul nome del lake (My data mesh) a cui vuoi aggiungere una zona.

  3. Nella scheda Zone, fai clic su Aggiungi zona.

  4. Nel campo Nome visualizzato, inserisci My sub domain. Dataplex genera automaticamente un ID per la tua zona.

    NOTA: il nome della zona diventa il nome di un set di dati BigQuery. Di conseguenza, tutte le zone ospitate nello stesso progetto Google Cloud devono avere un ID univoco, anche se esistono all'interno di data lake diversi.

  5. In Tipo, seleziona Zona non elaborata.

  6. Fai clic su Crea.

Collegare asset alle zone

Allega asset di dati alla tua zona. Un asset di dati, ovvero le risorse di archiviazione che contengono i tuoi dati, può essere un bucket Cloud Storage o un set di dati BigQuery. Questo è il passaggio finale per creare l'architettura del data mesh.

  1. Nella visualizzazione Gestisci di Dataplex, fai clic sul lake che hai creato (My data mesh).

  2. Nella scheda Zone, fai clic sulla zona (My sub domain) a cui aggiungere l'asset.

  3. Nella scheda Asset, fai clic su Aggiungi asset.

  4. Fai clic su Aggiungi un asset.

  5. In Tipo, seleziona Bucket Cloud Storage.

  6. Nel campo Nome visualizzato , inserisci Data mesh asset. Dataplex genera automaticamente un ID risorsa per te.

  7. Nel campo Bucket, fai clic su Sfoglia.

    1. Seleziona il bucket dall'elenco.
    2. Fai clic su Seleziona.
  8. Fai clic su Fine e poi su Continua.

  9. Fai clic su Continua per accettare le Impostazioni avanzate predefinite.

  10. Fai clic su Invia per aggiungere il bucket Cloud Storage come asset di dati alla tua zona.

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Elimina il progetto

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Elimina l'architettura del data mesh

  1. In Dataplex nella console Google Cloud, vai alla visualizzazione Gestisci.

  2. In corrispondenza del lake che vuoi eliminare, fai clic su Mostra altro, quindi fai clic su Elimina.

  3. Conferma l'azione inserendo delete e fai clic su Elimina lake.

Passaggi successivi