Che cos'è il data mesh?

Il data mesh è un framework architetturale per la gestione dei dati in organizzazioni complesse. A differenza dei modelli centralizzati, il data mesh decentralizza la proprietà dei dati in team specifici per dominio. Questo approccio può aiutare a eliminare i colli di bottiglia trattando i dati come un prodotto, ma introduce anche nuovi requisiti in termini di risorse. Il successo con il data mesh dipende dal fatto che i team di dominio possiedano competenze specifiche di data engineering e capacità di governance. Per le organizzazioni che dispongono delle risorse per supportare team distribuiti, il data mesh può migliorare l'agilità. Per altri, i modelli centralizzati come i data warehouse o i data lake potrebbero rimanere una soluzione più efficiente.

Principi fondamentali del data mesh

Il data mesh non riguarda solo un nuovo insieme di strumenti o tecnologie, ma un cambiamento nel modo in cui le aziende pensano ai propri dati. Ci sono quattro principi fondamentali che guidano l'approccio data mesh. Questi principi sono ciò che rende l'approccio così efficace nella risoluzione dei problemi delle tradizionali architetture di dati centralizzate.

Proprietà orientata al dominio

In un'architettura di dati tradizionale, un singolo team centrale, come un team IT o di data engineering, è responsabile di tutti i dati. In un data mesh, la proprietà dei dati è distribuita tra i domini aziendali che creano i dati. Ad esempio, un team di vendita sarebbe proprietario dei dati dei clienti che genera e un team di marketing sarebbe proprietario dei dati delle campagne che crea. In questo modo, i team sono più responsabili e consapevoli dei dati che producono.

Dati come prodotto

Con la proprietà orientata al dominio, i team che creano i dati devono anche trattarli come un prodotto. Proprio come un'azienda fornisce un prodotto di alta qualità a un cliente, un team del dominio di dati deve fornire dati di alta qualità ad altri team che ne hanno bisogno. Ciò significa che i dati sono facili da rilevare, comprendere e utilizzare. Deve anche essere affidabile, sicuro e ben documentato, con controlli di accesso integrati in modo che solo le persone giuste accedano ai dati destinati al loro caso d'uso.

Infrastruttura dati self-service come piattaforma

Per rendere possibile il trattamento dei dati come prodotto, un data mesh utilizza una piattaforma self-service. Questa piattaforma è un insieme di strumenti e servizi che consente ai team del dominio dati di creare e gestire facilmente i propri prodotti dati senza dover ricorrere all'assistenza di un team dati centrale. Può essere una piattaforma semplice e facile da usare che automatizza molte delle attività tecniche coinvolte nella gestione dei dati, come l'archiviazione, la sicurezza e la governance dei dati.

Governance computazionale federata

Poiché i dati sono decentralizzati e distribuiti tra molti team diversi, è necessario garantire che tutti seguano le stesse regole. È qui che entra in gioco la governance computazionale federata. È un modello in cui un piccolo team centrale stabilisce le regole e gli standard globali per tutti i dati. Tuttavia, l'applicazione di queste regole è gestita dai team del dominio dati stessi. In questo modo si ottiene il meglio di entrambi i mondi: policy centralizzate con esecuzione decentralizzata.

Domande frequenti sul data mesh

Quali funzionalità dovrebbero fornire i prodotti di dati in una mesh?

Un prodotto dati in un data mesh deve essere reperibile, indirizzabile, affidabile, autodescrittivo e sicuro. I consumatori di dati devono poterli rilevare facilmente, capire di cosa si tratta e sapere che sono di alta qualità. Inoltre, dovrebbe avere regole di accesso chiare e coerenti per garantire la sicurezza.

Come si inizia a creare un mesh di dati?

L'avvio di un data mesh è un processo incrementale. Spesso è meglio iniziare con un piccolo progetto pilota e alcuni team di dominio disponibili. Inizia identificando un dominio aziendale che può trarre vantaggio da una maggiore autonomia dei dati. Quindi, crea una piattaforma self-service minimal che consenta al team di creare un prodotto di dati. Man mano che il progetto ha successo, puoi utilizzare i risultati come proof of concept per coinvolgere l'intera organizzazione nell'architettura data mesh.

Quali sono i rischi o le sfide dell'adozione di un data mesh?

Una delle sfide più grandi è il cambiamento culturale. Può essere difficile per un team di dati centralizzato rinunciare al controllo. Ci sono anche sfide tecniche, come garantire la sicurezza dei dati e gestire un sistema distribuito. Tuttavia, con un'attenta pianificazione e una chiara strategia di comunicazione, queste sfide possono essere superate.

In che modo il data mesh supporta o si integra con i sistemi di dati esistenti?

Il data mesh è progettato per funzionare con i sistemi di dati esistenti. Non richiede di eliminare i data lake o i data warehouse attuali. Può essere implementato al di sopra di queste. Un data mesh può fungere da nuovo livello che fornisce un modo unificato e self-service per consentire ai team di accedere ai dati provenienti da diverse origini.

Quali sono i luoghi comuni o i miti più diffusi sul data mesh?

Un'idea sbagliata comune è che il data mesh sia un prodotto che si può acquistare. Non lo è. È un nuovo modo di organizzare e gestire i dati. Un altro mito è che sia solo per le grandi imprese. Sebbene sia più comune nelle grandi aziende, i principi possono essere applicati anche alle organizzazioni più piccole.

Come si misura il successo o il ROI di un data mesh?

Misurare il successo di un data mesh può essere complicato perché i vantaggi inizialmente non sono spesso di natura finanziaria. Puoi invece misurare il successo esaminando aspetti come la velocità di consegna dei dati, il numero di team che utilizzano la piattaforma di dati e la fiducia che i team hanno nei dati che stanno consumando. Nel tempo, questi miglioramenti possono portare a risultati aziendali migliori e a un ritorno sull'investimento (ROI) più elevato.

Data mesh e architetture di dati tradizionali

L'approccio data mesh è stato creato per risolvere alcuni dei problemi comuni delle architetture di dati tradizionali. Questi modelli, come i data warehouse o i data lake di proprietà di singoli reparti o team, possono creare silos di dati e rischi di governance, soprattutto quando un'azienda cresce. Il data mesh affronta questi problemi distribuendo la proprietà e responsabilizzando i singoli team, pur mantenendo i controlli centrali per la gestione e il monitoraggio dei dati tra i domini.

Funzionalità	Data mesh	Architetture tradizionali
Modello architettonico	Decentralizzati e distribuiti tra i domini aziendali.	Centralizzato e monolitico, gestito da un unico team.
Proprietà dei dati	I dati sono di proprietà dei team di dominio che li creano e li utilizzano.	I dati sono di proprietà e gestiti da un team di dati centrale.
Accesso ai dati	I team accedono ai dati tramite prodotti di dati standardizzati.	I team devono rivolgersi a un team centrale per ottenere i dati.
Scalabilità	Può essere scalato facilmente man mano che vengono aggiunti nuovi team di dominio e prodotti di dati.	Può diventare un collo di bottiglia man mano che l'organizzazione e il volume di dati crescono.
Qualità dei dati	I team di dominio sono responsabili della qualità dei propri dati, il che può aumentare l'affidabilità e l'accuratezza.	La qualità dei dati può essere incoerente poiché il team centrale potrebbe non avere il contesto di ogni dominio.
Governance dei dati	La governance è federata, con standard e regole globali definiti a livello centrale ma applicati dai team di dominio.	La governance è centralizzata e gestita interamente da un unico team.
Caso d'uso	Può essere la soluzione migliore per organizzazioni grandi e complesse con dati diversificati e unità aziendali indipendenti.	Può essere la soluzione migliore per le organizzazioni più piccole o per casi d'uso specifici che richiedono una Single Source of Truth.
Competenze/ risorse tecniche necessarie	Richiede competenze tecniche distribuite (ingegneria, governance) all'interno di ciascun team di dominio.	Centralizza le competenze tecniche in un unico team IT o di data engineering.

Funzionalità

Data mesh

Architetture tradizionali

Modello architettonico

Decentralizzati e distribuiti tra i domini aziendali.

Centralizzato e monolitico, gestito da un unico team.

Proprietà dei dati

I dati sono di proprietà dei team di dominio che li creano e li utilizzano.

I dati sono di proprietà e gestiti da un team di dati centrale.

Accesso ai dati

I team accedono ai dati tramite prodotti di dati standardizzati.

I team devono rivolgersi a un team centrale per ottenere i dati.

Scalabilità

Può essere scalato facilmente man mano che vengono aggiunti nuovi team di dominio e prodotti di dati.

Può diventare un collo di bottiglia man mano che l'organizzazione e il volume di dati crescono.

Qualità dei dati

I team di dominio sono responsabili della qualità dei propri dati, il che può aumentare l'affidabilità e l'accuratezza.

La qualità dei dati può essere incoerente poiché il team centrale potrebbe non avere il contesto di ogni dominio.

Governance dei dati

La governance è federata, con standard e regole globali definiti a livello centrale ma applicati dai team di dominio.

La governance è centralizzata e gestita interamente da un unico team.

Caso d'uso

Può essere la soluzione migliore per organizzazioni grandi e complesse con dati diversificati e unità aziendali indipendenti.

Può essere la soluzione migliore per le organizzazioni più piccole o per casi d'uso specifici che richiedono una Single Source of Truth.

Competenze/ risorse tecniche necessarie

Richiede competenze tecniche distribuite (ingegneria, governance) all'interno di ciascun team di dominio.

Centralizza le competenze tecniche in un unico team IT o di data engineering.

Casi d'uso per il data mesh

L'approccio data mesh può essere particolarmente utile per le organizzazioni grandi e complesse che hanno più unità aziendali e una grande quantità di dati. Ecco alcuni casi d'uso comuni in cui un data mesh può fornire un valore significativo.

Analisi dei dati e BI

Un data mesh può aiutare un'organizzazione a ottenere più valore dalle sue iniziative di analisi dei dati e business intelligence (BI). Con i prodotti di dati di domini diversi, i data scientist e gli analisti possono ottenere una visione più completa dell'azienda. Ad esempio, un'azienda di vendita al dettaglio può combinare i dati dei clienti del proprio dominio di vendita con i dati sul traffico web del proprio dominio di marketing per comprendere meglio il comportamento dei clienti.

Iniziative Customer 360

Un'iniziativa di visione a 360 gradi del cliente mira a creare una visione completa di un cliente combinando dati provenienti da fonti diverse. Questo può essere difficile in un'architettura di dati centralizzata perché i dati sono spesso isolati in diversi reparti. Un data mesh semplifica notevolmente questo processo fornendo un modo standardizzato per accedere e combinare prodotti di dati provenienti da domini diversi, come vendite, marketing e assistenza.

Monitoraggio e rilevamento delle frodi

Nei servizi finanziari, un data mesh può essere utilizzato per il monitoraggio in tempo reale e il rilevamento delle frodi. Una banca, ad esempio, potrebbe avere un prodotto di dati per le transazioni e un altro per i dati di accesso dei clienti. Un sistema di rilevamento delle frodi può quindi accedere a entrambi i prodotti di dati per identificare attività sospette. La natura decentralizzata di un data mesh può aiutare a raggiungere la velocità e l'affidabilità necessarie per questo tipo di applicazioni.

Conformità normativa e sovranità dei dati

Man mano che le normative sulla privacy dei dati diventano più complesse, può essere difficile garantire la conformità in un modello di dati centralizzato. Un data mesh può aiutare a garantire la conformità normativa consentendo ai team di dominio di gestire i propri prodotti di dati e assicurarsi che siano conformi alle leggi locali. Questo è particolarmente importante per le aziende multinazionali che devono rispettare regole di sovranità dei dati diverse in paesi diversi.

Data science e agenti AI

Le applicazioni di AI e gli agenti avanzati richiedono dati di alta qualità e ricchi di contesto per funzionare in modo efficace. In un data mesh, i team di dominio curano i dati specificamente per il consumo, assicurandosi che siano puliti, etichettati e documentati. Ciò consente ai data scientist di addestrare i modelli su input affidabili senza dedicare troppo tempo alla preparazione dei dati. Inoltre, gli agenti AI possono accedere a questi prodotti di dati modulari tramite API per recuperare informazioni in tempo reale, consentendo loro di eseguire attività complesse in diversi domini aziendali con maggiore precisione.

Vantaggi dell'adozione di un data mesh

L'adozione di un data mesh può fornire vantaggi significativi a un'organizzazione. Passando a un modello decentralizzato, le aziende possono superare i colli di bottiglia delle architetture tradizionali e ottenere risultati aziendali migliori.

Agilità e scalabilità

Un mesh di dati può essere più agile. Ogni dominio di dati può funzionare in modo indipendente, il che consente all'organizzazione di scalare ed evolversi più rapidamente. Può semplificare l'aggiunta di nuovi prodotti e servizi di dati senza causare interruzioni.

Qualità e affidabilità dei dati

Un data mesh può assegnare la responsabilità ai team di dominio che producono i dati. Poiché i team di dominio sono anche i principali consumatori dei propri dati, hanno un forte incentivo a garantirne la qualità. Questo può portare a dati più affidabili.

Efficienza in termini di costi

Un data mesh può anche aiutare un'azienda a diventare più efficiente in termini di costi. Con una piattaforma dati centralizzata, i team devono spesso attendere che un team di dati centrale li aiuti con le loro esigenze in materia di dati. Ciò può causare ritardi e spreco di risorse.

Stabilisci un data fabric unificato e una governance centralizzata

Knowledge Catalog funge da data fabric unificato e fornisce uno strato di governance centrale sul tuo mesh di dati. Può aiutarti a scoprire, gestire e governare i tuoi dati distribuiti in vari ambienti, garantendoti una Single Source of Truth per metadati e policy. Per iniziare, dovrai creare un lake Knowledge Catalog. Un lake Knowledge Catalog è un contenitore di primo livello che contiene i tuoi dati ed è solitamente mappato a un dominio aziendale.

Ecco i passaggi per creare un lake:

Nella console Google Cloud, vai alla pagina Knowledge Catalog Lakes.
Dopo aver fatto clic su "Crea", assegna al nuovo lake un nome descrittivo, ad esempio "Dominio dati di vendita" o "Mesh di dati di marketing".
Scegli una regione per il tuo lake.
Una volta creato il lake, è possibile aggiungere zone. Una zona è un sottodominio all'interno del tuo lake che rappresenta un team specifico o un contratto di dati. Ad esempio, all'interno del lake "Sales Data Domain" (Dominio dei dati di vendita), potresti creare una zona "Raw" (Non elaborata) per i dati non elaborati e una zona "Curated" (Curata) per i dati puliti e pronti per la produzione.
Dopo aver creato le zone, è possibile associarvi degli asset. Un asset è costituito dai dati effettivamente archiviati in un servizio come Cloud Storage o BigQuery. Devi solo indicare alla zona Knowledge Catalog la posizione dei tuoi dati.

Knowledge Catalog esegue quindi automaticamente la scansione di questi asset per scoprire e catalogare i metadati.

Accelera la scoperta tramite un marketplace di prodotti di dati

Una parte fondamentale del principio "dati come prodotto" è rendere i dati facilmente rilevabili. La condivisione dei dati di BigQuery ti consente di creare un marketplace di prodotti di dati. Ciò consente ai team di dominio di condividere in modo sicuro i prodotti di dati con altri team senza dover copiare o spostare i dati. Può aiutare i consumatori di dati a trovare i dati di cui hanno bisogno e fornisce loro un'interfaccia chiara e ben definita per accedervi.

Crea e condividi prodotti di dati su una piattaforma serverless

I servizi serverless di Google Cloud consentono ai team di dominio di creare e gestire i propri prodotti dati con un overhead minimo. BigQuery è un data warehouse serverless potente che consente ai team di analizzare grandi set di dati in modo rapido ed efficiente. Dataflow è un servizio di elaborazione dei dati serverless che può essere utilizzato per creare e automatizzare pipeline di dati per prodotti di dati. Questi servizi riducono la necessità di un team centrale di data engineering per gestire l'infrastruttura, rendendo i team di dominio più autonomi e agili.

Garantisci la conformità con il controllo dell'accesso basato su attributi

La governance computazionale federata è il principio secondo cui un team centrale definisce le regole globali, ma consente ai team di dominio di applicarle. Le condizioni di Identity and Access Management (IAM) di Google Cloud forniscono gli strumenti per implementare questo aspetto. Le condizioni IAM consentono il controllo dell'accesso basato su attributi (ABAC), in cui puoi configurare autorizzazioni granulari in base agli attributi dei dati. Ad esempio, è possibile creare una policy che consenta a un utente di accedere ai dati dei clienti solo dalla propria area geografica specifica, contribuendo a garantire la conformità alle normative sulla sovranità dei dati come il GDPR.

Risolvi le tue sfide aziendali con Google Cloud

I nuovi clienti ricevono 300 $ di crediti senza costi da spendere su Google Cloud.

Fai un passo avanti

Inizia a creare su Google Cloud con 300 $ di crediti senza costi e oltre 20 prodotti sempre senza costi.

Hai bisogno di aiuto per iniziare?
Contatta il team di vendita
Collabora con un partner di fiducia
Trova un partner
Continua la navigazione
Visualizza tutti i prodotti