Il data mesh è un framework architetturale per la gestione dei dati in organizzazioni complesse. A differenza dei modelli centralizzati, il data mesh decentralizza la proprietà dei dati in team specifici per dominio. Questo approccio può aiutare a eliminare i colli di bottiglia trattando i dati come un prodotto, ma introduce anche nuovi requisiti in termini di risorse. Il successo con il data mesh dipende dal fatto che i team di dominio possiedano competenze specifiche di data engineering e capacità di governance. Per le organizzazioni che dispongono delle risorse per supportare team distribuiti, il data mesh può migliorare l'agilità. Per altri, i modelli centralizzati come i data warehouse o i data lake potrebbero rimanere una soluzione più efficiente.
Il data mesh non riguarda solo un nuovo insieme di strumenti o tecnologie, ma un cambiamento nel modo in cui le aziende pensano ai propri dati. Ci sono quattro principi fondamentali che guidano l'approccio data mesh. Questi principi sono ciò che rende l'approccio così efficace nella risoluzione dei problemi delle tradizionali architetture di dati centralizzate.
In un'architettura di dati tradizionale, un singolo team centrale, come un team IT o di data engineering, è responsabile di tutti i dati. In un data mesh, la proprietà dei dati è distribuita tra i domini aziendali che creano i dati. Ad esempio, un team di vendita sarebbe proprietario dei dati dei clienti che genera e un team di marketing sarebbe proprietario dei dati delle campagne che crea. In questo modo, i team sono più responsabili e consapevoli dei dati che producono.
Con la proprietà orientata al dominio, i team che creano i dati devono anche trattarli come un prodotto. Proprio come un'azienda fornisce un prodotto di alta qualità a un cliente, un team del dominio di dati deve fornire dati di alta qualità ad altri team che ne hanno bisogno. Ciò significa che i dati sono facili da rilevare, comprendere e utilizzare. Deve anche essere affidabile, sicuro e ben documentato, con controlli di accesso integrati in modo che solo le persone giuste accedano ai dati destinati al loro caso d'uso.
Per rendere possibile il trattamento dei dati come prodotto, un data mesh utilizza una piattaforma self-service. Questa piattaforma è un insieme di strumenti e servizi che consente ai team del dominio dati di creare e gestire facilmente i propri prodotti dati senza dover ricorrere all'assistenza di un team dati centrale. Può essere una piattaforma semplice e facile da usare che automatizza molte delle attività tecniche coinvolte nella gestione dei dati, come l'archiviazione, la sicurezza e la governance dei dati.
Poiché i dati sono decentralizzati e distribuiti tra molti team diversi, è necessario garantire che tutti seguano le stesse regole. È qui che entra in gioco la governance computazionale federata. È un modello in cui un piccolo team centrale stabilisce le regole e gli standard globali per tutti i dati. Tuttavia, l'applicazione di queste regole è gestita dai team del dominio dati stessi. In questo modo si ottiene il meglio di entrambi i mondi: policy centralizzate con esecuzione decentralizzata.
Un prodotto dati in un data mesh deve essere reperibile, indirizzabile, affidabile, autodescrittivo e sicuro. I consumatori di dati devono poterli rilevare facilmente, capire di cosa si tratta e sapere che sono di alta qualità. Inoltre, dovrebbe avere regole di accesso chiare e coerenti per garantire la sicurezza.
L'avvio di un data mesh è un processo incrementale. Spesso è meglio iniziare con un piccolo progetto pilota e alcuni team di dominio disponibili. Inizia identificando un dominio aziendale che può trarre vantaggio da una maggiore autonomia dei dati. Quindi, crea una piattaforma self-service minimal che consenta al team di creare un prodotto di dati. Man mano che il progetto ha successo, puoi utilizzare i risultati come proof of concept per coinvolgere l'intera organizzazione nell'architettura data mesh.
Una delle sfide più grandi è il cambiamento culturale. Può essere difficile per un team di dati centralizzato rinunciare al controllo. Ci sono anche sfide tecniche, come garantire la sicurezza dei dati e gestire un sistema distribuito. Tuttavia, con un'attenta pianificazione e una chiara strategia di comunicazione, queste sfide possono essere superate.
Il data mesh è progettato per funzionare con i sistemi di dati esistenti. Non richiede di eliminare i data lake o i data warehouse attuali. Può essere implementato al di sopra di queste. Un data mesh può fungere da nuovo livello che fornisce un modo unificato e self-service per consentire ai team di accedere ai dati provenienti da diverse origini.
Un'idea sbagliata comune è che il data mesh sia un prodotto che si può acquistare. Non lo è. È un nuovo modo di organizzare e gestire i dati. Un altro mito è che sia solo per le grandi imprese. Sebbene sia più comune nelle grandi aziende, i principi possono essere applicati anche alle organizzazioni più piccole.
Misurare il successo di un data mesh può essere complicato perché i vantaggi inizialmente non sono spesso di natura finanziaria. Puoi invece misurare il successo esaminando aspetti come la velocità di consegna dei dati, il numero di team che utilizzano la piattaforma di dati e la fiducia che i team hanno nei dati che stanno consumando. Nel tempo, questi miglioramenti possono portare a risultati aziendali migliori e a un ritorno sull'investimento (ROI) più elevato.
L'approccio data mesh è stato creato per risolvere alcuni dei problemi comuni delle architetture di dati tradizionali. Questi modelli, come i data warehouse o i data lake di proprietà di singoli reparti o team, possono creare silos di dati e rischi di governance, soprattutto quando un'azienda cresce. Il data mesh affronta questi problemi distribuendo la proprietà e responsabilizzando i singoli team, pur mantenendo i controlli centrali per la gestione e il monitoraggio dei dati tra i domini.
Funzionalità | Data mesh | Architetture tradizionali |
Modello architettonico | Decentralizzati e distribuiti tra i domini aziendali. | Centralizzato e monolitico, gestito da un unico team. |
Proprietà dei dati | I dati sono di proprietà dei team di dominio che li creano e li utilizzano. | I dati sono di proprietà e gestiti da un team di dati centrale. |
Accesso ai dati | I team accedono ai dati tramite prodotti di dati standardizzati. | I team devono rivolgersi a un team centrale per ottenere i dati. |
Scalabilità | Può essere scalato facilmente man mano che vengono aggiunti nuovi team di dominio e prodotti di dati. | Può diventare un collo di bottiglia man mano che l'organizzazione e il volume di dati crescono. |
Qualità dei dati | I team di dominio sono responsabili della qualità dei propri dati, il che può aumentare l'affidabilità e l'accuratezza. | La qualità dei dati può essere incoerente poiché il team centrale potrebbe non avere il contesto di ogni dominio. |
Governance dei dati | La governance è federata, con standard e regole globali definiti a livello centrale ma applicati dai team di dominio. | La governance è centralizzata e gestita interamente da un unico team. |
Caso d'uso | Può essere la soluzione migliore per organizzazioni grandi e complesse con dati diversificati e unità aziendali indipendenti. | Può essere la soluzione migliore per le organizzazioni più piccole o per casi d'uso specifici che richiedono una Single Source of Truth. |
Competenze/ risorse tecniche necessarie | Richiede competenze tecniche distribuite (ingegneria, governance) all'interno di ciascun team di dominio. | Centralizza le competenze tecniche in un unico team IT o di data engineering. |
Funzionalità
Data mesh
Architetture tradizionali
Modello architettonico
Decentralizzati e distribuiti tra i domini aziendali.
Centralizzato e monolitico, gestito da un unico team.
Proprietà dei dati
I dati sono di proprietà dei team di dominio che li creano e li utilizzano.
I dati sono di proprietà e gestiti da un team di dati centrale.
Accesso ai dati
I team accedono ai dati tramite prodotti di dati standardizzati.
I team devono rivolgersi a un team centrale per ottenere i dati.
Scalabilità
Può essere scalato facilmente man mano che vengono aggiunti nuovi team di dominio e prodotti di dati.
Può diventare un collo di bottiglia man mano che l'organizzazione e il volume di dati crescono.
Qualità dei dati
I team di dominio sono responsabili della qualità dei propri dati, il che può aumentare l'affidabilità e l'accuratezza.
La qualità dei dati può essere incoerente poiché il team centrale potrebbe non avere il contesto di ogni dominio.
Governance dei dati
La governance è federata, con standard e regole globali definiti a livello centrale ma applicati dai team di dominio.
La governance è centralizzata e gestita interamente da un unico team.
Caso d'uso
Può essere la soluzione migliore per organizzazioni grandi e complesse con dati diversificati e unità aziendali indipendenti.
Può essere la soluzione migliore per le organizzazioni più piccole o per casi d'uso specifici che richiedono una Single Source of Truth.
Competenze/ risorse tecniche necessarie
Richiede competenze tecniche distribuite (ingegneria, governance) all'interno di ciascun team di dominio.
Centralizza le competenze tecniche in un unico team IT o di data engineering.
L'approccio data mesh può essere particolarmente utile per le organizzazioni grandi e complesse che hanno più unità aziendali e una grande quantità di dati. Ecco alcuni casi d'uso comuni in cui un data mesh può fornire un valore significativo.
Un data mesh può aiutare un'organizzazione a ottenere più valore dalle sue iniziative di analisi dei dati e business intelligence (BI). Con i prodotti di dati di domini diversi, i data scientist e gli analisti possono ottenere una visione più completa dell'azienda. Ad esempio, un'azienda di vendita al dettaglio può combinare i dati dei clienti del proprio dominio di vendita con i dati sul traffico web del proprio dominio di marketing per comprendere meglio il comportamento dei clienti.
Un'iniziativa di visione a 360 gradi del cliente mira a creare una visione completa di un cliente combinando dati provenienti da fonti diverse. Questo può essere difficile in un'architettura di dati centralizzata perché i dati sono spesso isolati in diversi reparti. Un data mesh semplifica notevolmente questo processo fornendo un modo standardizzato per accedere e combinare prodotti di dati provenienti da domini diversi, come vendite, marketing e assistenza.
Nei servizi finanziari, un data mesh può essere utilizzato per il monitoraggio in tempo reale e il rilevamento delle frodi. Una banca, ad esempio, potrebbe avere un prodotto di dati per le transazioni e un altro per i dati di accesso dei clienti. Un sistema di rilevamento delle frodi può quindi accedere a entrambi i prodotti di dati per identificare attività sospette. La natura decentralizzata di un data mesh può aiutare a raggiungere la velocità e l'affidabilità necessarie per questo tipo di applicazioni.
Man mano che le normative sulla privacy dei dati diventano più complesse, può essere difficile garantire la conformità in un modello di dati centralizzato. Un data mesh può aiutare a garantire la conformità normativa consentendo ai team di dominio di gestire i propri prodotti di dati e assicurarsi che siano conformi alle leggi locali. Questo è particolarmente importante per le aziende multinazionali che devono rispettare regole di sovranità dei dati diverse in paesi diversi.
Le applicazioni di AI e gli agenti avanzati richiedono dati di alta qualità e ricchi di contesto per funzionare in modo efficace. In un data mesh, i team di dominio curano i dati specificamente per il consumo, assicurandosi che siano puliti, etichettati e documentati. Ciò consente ai data scientist di addestrare i modelli su input affidabili senza dedicare troppo tempo alla preparazione dei dati. Inoltre, gli agenti AI possono accedere a questi prodotti di dati modulari tramite API per recuperare informazioni in tempo reale, consentendo loro di eseguire attività complesse in diversi domini aziendali con maggiore precisione.
L'adozione di un data mesh può fornire vantaggi significativi a un'organizzazione. Passando a un modello decentralizzato, le aziende possono superare i colli di bottiglia delle architetture tradizionali e ottenere risultati aziendali migliori.
Agilità e scalabilità
Un mesh di dati può essere più agile. Ogni dominio di dati può funzionare in modo indipendente, il che consente all'organizzazione di scalare ed evolversi più rapidamente. Può semplificare l'aggiunta di nuovi prodotti e servizi di dati senza causare interruzioni.
Qualità e affidabilità dei dati
Un data mesh può assegnare la responsabilità ai team di dominio che producono i dati. Poiché i team di dominio sono anche i principali consumatori dei propri dati, hanno un forte incentivo a garantirne la qualità. Questo può portare a dati più affidabili.
Efficienza in termini di costi
Un data mesh può anche aiutare un'azienda a diventare più efficiente in termini di costi. Con una piattaforma dati centralizzata, i team devono spesso attendere che un team di dati centrale li aiuti con le loro esigenze in materia di dati. Ciò può causare ritardi e spreco di risorse.
Knowledge Catalog funge da data fabric unificato e fornisce uno strato di governance centrale sul tuo mesh di dati. Può aiutarti a scoprire, gestire e governare i tuoi dati distribuiti in vari ambienti, garantendoti una Single Source of Truth per metadati e policy. Per iniziare, dovrai creare un lake Knowledge Catalog. Un lake Knowledge Catalog è un contenitore di primo livello che contiene i tuoi dati ed è solitamente mappato a un dominio aziendale.
Ecco i passaggi per creare un lake:
Knowledge Catalog esegue quindi automaticamente la scansione di questi asset per scoprire e catalogare i metadati.
Una parte fondamentale del principio "dati come prodotto" è rendere i dati facilmente rilevabili. La condivisione dei dati di BigQuery ti consente di creare un marketplace di prodotti di dati. Ciò consente ai team di dominio di condividere in modo sicuro i prodotti di dati con altri team senza dover copiare o spostare i dati. Può aiutare i consumatori di dati a trovare i dati di cui hanno bisogno e fornisce loro un'interfaccia chiara e ben definita per accedervi.
I servizi serverless di Google Cloud consentono ai team di dominio di creare e gestire i propri prodotti dati con un overhead minimo. BigQuery è un data warehouse serverless potente che consente ai team di analizzare grandi set di dati in modo rapido ed efficiente. Dataflow è un servizio di elaborazione dei dati serverless che può essere utilizzato per creare e automatizzare pipeline di dati per prodotti di dati. Questi servizi riducono la necessità di un team centrale di data engineering per gestire l'infrastruttura, rendendo i team di dominio più autonomi e agili.
La governance computazionale federata è il principio secondo cui un team centrale definisce le regole globali, ma consente ai team di dominio di applicarle. Le condizioni di Identity and Access Management (IAM) di Google Cloud forniscono gli strumenti per implementare questo aspetto. Le condizioni IAM consentono il controllo dell'accesso basato su attributi (ABAC), in cui puoi configurare autorizzazioni granulari in base agli attributi dei dati. Ad esempio, è possibile creare una policy che consenta a un utente di accedere ai dati dei clienti solo dalla propria area geografica specifica, contribuendo a garantire la conformità alle normative sulla sovranità dei dati come il GDPR.
Inizia a creare su Google Cloud con 300 $ di crediti senza costi e oltre 20 prodotti sempre senza costi.