Il data mesh è un framework architettonico per la gestione dei dati in organizzazioni complesse. A differenza dei modelli centralizzati, il data mesh decentralizza la proprietà dei dati a team specifici per dominio. Questo approccio può aiutare a eliminare i colli di bottiglia trattando i dati come un prodotto, ma introduce anche nuovi requisiti in termini di risorse. Il successo con il data mesh dipende dal fatto che i team di dominio possiedano competenze specifiche di data engineering e capacità di governance. Per le organizzazioni che dispongono delle risorse necessarie per supportare team distribuiti, il data mesh può migliorare l'agilità. Per altri, modelli centralizzati come i data warehouse o i data lake potrebbero rimanere una soluzione più efficiente.
Il data mesh non riguarda solo un nuovo insieme di strumenti o tecnologie, ma un cambiamento nel modo in cui le aziende pensano ai propri dati. Ci sono quattro principi fondamentali che guidano l'approccio data mesh. Questi principi sono ciò che rende l'approccio così efficace nella risoluzione dei problemi delle tradizionali architetture di dati centralizzate.
In un'architettura di dati tradizionale, un singolo team centrale, come un team IT o di data engineering, è responsabile di tutti i dati. In un data mesh, la proprietà dei dati è distribuita tra i domini aziendali che creano i dati. Ad esempio, un team di vendita sarebbe proprietario dei dati dei clienti che genera e un team di marketing sarebbe proprietario dei dati delle campagne che crea. In questo modo, i team sono più responsabili e consapevoli dei dati che producono.
Con la proprietà orientata al dominio, anche i team che creano i dati devono trattarli come un prodotto. Proprio come un'azienda fornisce un prodotto di alta qualità a un cliente, un team di dominio dati deve fornire dati di alta qualità ad altri team che ne hanno bisogno. Ciò significa che i dati sono facili da rilevare, comprendere e utilizzare. Deve inoltre essere affidabile, sicuro e ben documentato, con controlli di accesso integrati, in modo che le persone giuste possano accedere solo ai dati destinati al loro caso d'uso.
Per rendere possibile il trattamento dei dati come prodotto, un data mesh utilizza una piattaforma self-service. Questa piattaforma è un insieme di strumenti e servizi che consente ai team del dominio dati di creare e gestire facilmente i propri prodotti dati senza dover ricorrere all'assistenza di un team dati centrale. Può essere una piattaforma semplice e facile da usare che automatizza molte delle attività tecniche coinvolte nella gestione dei dati, come l'archiviazione, la sicurezza e la governance dei dati.
Poiché i dati sono decentralizzati e distribuiti tra molti team diversi, è necessario trovare un modo per garantire che tutti seguano le stesse regole. Ed è qui che entra in gioco la governance computazionale federata. Si tratta di un modello in cui un piccolo team centrale stabilisce le regole e gli standard globali per tutti i dati. Tuttavia, l'applicazione di queste regole è gestita dagli stessi team del dominio dei dati. In questo modo si ottiene il meglio di entrambi i mondi: policy centralizzate con esecuzione decentralizzata.
Un prodotto dati in un data mesh deve essere reperibile, indirizzabile, affidabile, autodescrittivo e sicuro. I consumatori di dati devono poterli rilevare facilmente, capire di cosa si tratta e sapere che sono di alta qualità. Inoltre, dovrebbe avere regole di accesso chiare e coerenti per garantire la sicurezza.
L'avvio di un data mesh è un processo incrementale. Spesso è meglio iniziare con un piccolo progetto pilota e alcuni team di dominio disponibili. Inizia identificando un dominio aziendale che può trarre vantaggio da una maggiore autonomia dei dati. Quindi, crea una piattaforma self-service minimal che consenta al team di creare un prodotto di dati. Man mano che il progetto ha successo, puoi utilizzare i risultati come proof of concept per coinvolgere l'intera organizzazione nell'architettura data mesh.
Una delle sfide più grandi è il cambiamento culturale. Per un team di dati centralizzato può essere difficile rinunciare al controllo. Ci sono anche sfide tecniche, come garantire la sicurezza dei dati e gestire un sistema distribuito. Tuttavia, con una pianificazione attenta e una chiara strategia di comunicazione, queste sfide possono essere superate.
Il data mesh è progettato per funzionare con i sistemi di dati esistenti. Non richiede di eliminare i data lake o i data warehouse attuali. Può essere implementato al di sopra di queste. Un data mesh può fungere da nuovo livello che fornisce un modo unificato e self-service per consentire ai team di accedere ai dati provenienti da diverse origini.
Un'idea sbagliata molto diffusa è che il data mesh sia un prodotto che si può acquistare. Non lo è. È un nuovo modo di organizzare e gestire i dati. Un altro mito è che sia solo per le grandi imprese. Sebbene sia più comune nelle grandi aziende, i principi possono essere applicati anche alle organizzazioni più piccole.
Misurare il successo di un data mesh può essere complicato perché i vantaggi inizialmente non sono spesso di natura finanziaria. Puoi invece misurare il successo esaminando aspetti come la velocità di consegna dei dati, il numero di team che utilizzano la piattaforma di dati e la fiducia che i team hanno nei dati che stanno consumando. Nel tempo, questi miglioramenti possono portare a risultati aziendali migliori e a un ritorno sull'investimento (ROI) più elevato.
L'approccio data mesh è stato creato per risolvere alcuni dei problemi comuni delle architetture di dati tradizionali. Questi modelli, come i data warehouse o i data lake di proprietà di singoli reparti o team, possono creare silos di dati e rischi di governance, soprattutto quando un'azienda cresce. Il data mesh affronta questi problemi distribuendo la proprietà e responsabilizzando i singoli team, pur mantenendo i controlli centrali per la gestione e il monitoraggio dei dati tra i domini.
Funzionalità | Data mesh | Architetture tradizionali |
Modello architettonico | Decentralizzato e distribuito tra i domini aziendali. | Centralizzato e monolitico, gestito da un unico team. |
Proprietà dei dati | I dati sono di proprietà dei team di dominio che li creano e li utilizzano. | I dati sono di proprietà e gestiti da un team di dati centrale. |
Accesso ai dati | I team accedono ai dati tramite prodotti di dati standardizzati. | Per ottenere i dati, i team devono rivolgersi a un team centrale. |
Scalabilità | Può essere facilmente scalato man mano che vengono aggiunti nuovi team di dominio e prodotti dati. | Può diventare un collo di bottiglia man mano che l'organizzazione e il volume dei dati crescono. |
Qualità dei dati | I team di dominio sono responsabili della qualità dei propri dati, il che può aumentare l'affidabilità e l'accuratezza. | La qualità dei dati può essere incoerente poiché il team centrale potrebbe non avere il contesto di ogni dominio. |
Governance dei dati | La governance è federata, con standard e regole globali stabiliti centralmente ma applicati dai team di dominio. | La governance è centralizzata e gestita interamente da un unico team. |
Caso d'uso | Può essere la soluzione ideale per organizzazioni grandi e complesse con dati diversificati e unità aziendali indipendenti. | Può essere la soluzione migliore per le organizzazioni più piccole o per casi d'uso specifici che richiedono un'unica fonte attendibile. |
Competenze/ risorse tecniche necessarie | Richiede competenze tecniche distribuite (ingegneria, governance) all'interno di ciascun team di dominio. | Centralizza le competenze tecniche in un unico team IT o di data engineering. |
Data mesh
Architetture tradizionali
Modello architettonico
Decentralizzato e distribuito tra i domini aziendali.
Centralizzato e monolitico, gestito da un unico team.
Proprietà dei dati
I dati sono di proprietà dei team di dominio che li creano e li utilizzano.
I dati sono di proprietà e gestiti da un team di dati centrale.
Accesso ai dati
I team accedono ai dati tramite prodotti di dati standardizzati.
Per ottenere i dati, i team devono rivolgersi a un team centrale.
Scalabilità
Può essere facilmente scalato man mano che vengono aggiunti nuovi team di dominio e prodotti dati.
Può diventare un collo di bottiglia man mano che l'organizzazione e il volume dei dati crescono.
Qualità dei dati
I team di dominio sono responsabili della qualità dei propri dati, il che può aumentare l'affidabilità e l'accuratezza.
La qualità dei dati può essere incoerente poiché il team centrale potrebbe non avere il contesto di ogni dominio.
Governance dei dati
La governance è federata, con standard e regole globali stabiliti centralmente ma applicati dai team di dominio.
La governance è centralizzata e gestita interamente da un unico team.
Caso d'uso
Può essere la soluzione ideale per organizzazioni grandi e complesse con dati diversificati e unità aziendali indipendenti.
Può essere la soluzione migliore per le organizzazioni più piccole o per casi d'uso specifici che richiedono un'unica fonte attendibile.
Competenze/ risorse tecniche necessarie
Richiede competenze tecniche distribuite (ingegneria, governance) all'interno di ciascun team di dominio.
Centralizza le competenze tecniche in un unico team IT o di data engineering.
L'approccio data mesh può essere particolarmente utile per le organizzazioni grandi e complesse che hanno più unità aziendali e una grande quantità di dati. Ecco alcuni casi d'uso comuni in cui un data mesh può apportare un valore significativo.
Un data mesh può aiutare un'organizzazione a ottenere più valore dalle proprie iniziative di analisi dei dati e di business intelligence (BI). Grazie a prodotti di dati provenienti da domini diversi, gli analisti e gli scienziati dei dati possono ottenere una visione più completa dell'azienda. Ad esempio, un'azienda di vendita al dettaglio può combinare i dati dei clienti provenienti dal suo dominio di vendita con i dati sul traffico web provenienti dal suo dominio di marketing per comprendere meglio il comportamento dei clienti.
Un'iniziativa Customer 360 mira a creare una visione completa di un cliente combinando dati provenienti da diverse fonti. Questo può essere difficile in un'architettura di dati centralizzata perché i dati sono spesso isolati in diversi reparti. Un data mesh semplifica notevolmente questo processo fornendo un modo standardizzato per accedere e combinare prodotti di dati provenienti da domini diversi, come vendite, marketing e assistenza.
Nei servizi finanziari, un data mesh può essere utilizzato per il monitoraggio in tempo reale e il rilevamento delle frodi. Una banca, ad esempio, potrebbe disporre di un prodotto dati per le transazioni e di un altro per i dati di accesso dei clienti. Un sistema di rilevamento delle frodi può quindi accedere a entrambi i prodotti di dati per identificare attività sospette. La natura decentralizzata di un data mesh può aiutare a raggiungere la velocità e l'affidabilità necessarie per questo tipo di applicazioni.
Con l'aumentare della complessità delle normative sulla privacy dei dati, può risultare difficile garantire la conformità in un modello di dati centralizzato. Un data mesh può contribuire alla conformità normativa consentendo ai team di dominio di gestire i propri prodotti dati e di garantire che siano conformi alle leggi locali. Ciò è particolarmente importante per le aziende multinazionali che devono rispettare norme diverse sulla sovranità dei dati nei vari Paesi.
Le applicazioni di intelligenza artificiale avanzate e gli agenti necessitano di dati di alta qualità e ricchi di contesto per funzionare in modo efficace. In un data mesh, i team di dominio selezionano i dati specificamente per il consumo, assicurandosi che siano puliti, etichettati e documentati. Ciò consente ai data scientist di addestrare i modelli su input affidabili senza dedicare troppo tempo alla preparazione dei dati. Inoltre, gli agenti AI possono accedere a questi prodotti di dati modulari tramite API per recuperare informazioni in tempo reale, consentendo loro di eseguire attività complesse in diversi domini aziendali con maggiore precisione.
L'adozione di un data mesh può apportare notevoli vantaggi a un'organizzazione. Passando a un modello decentralizzato, le aziende possono superare i colli di bottiglia delle architetture tradizionali e ottenere risultati aziendali migliori.
Agilità e scalabilità
Un data mesh può essere più agile. Ogni dominio di dati può funzionare in modo indipendente, il che consente all'organizzazione di scalare ed evolvere più rapidamente. Può semplificare l'aggiunta di nuovi prodotti e servizi di dati senza causare interruzioni.
Qualità e affidabilità dei dati
Un data mesh può assegnare responsabilità ai team di dominio che producono i dati. Poiché i team di dominio sono anche i principali consumatori dei propri dati, hanno un forte incentivo a garantirne la qualità. Ciò può portare a dati più affidabili.
Efficienza in termini di costi
Un data mesh può anche aiutare un'azienda a diventare più efficiente in termini di costi. Con una piattaforma dati centralizzata, i team devono spesso attendere che un team di dati centrale li aiuti con le loro esigenze in materia di dati. Questo può portare a ritardi e spreco di risorse.
Dataplex Universal Catalog funge da data fabric unificato e fornisce un livello di governance centrale sulla tua rete di dati. Può aiutarti a scoprire, gestire e governare i tuoi dati distribuiti in vari ambienti, garantendoti un'unica fonte attendibile per metadati e policy. Per iniziare, dovrai creare un lake Dataplex. Un lake Dataplex è un contenitore di primo livello che contiene i tuoi dati ed è solitamente mappato a un dominio aziendale.
Ecco i passaggi per creare un lake:
Dataplex esegue quindi automaticamente la scansione di questi asset per scoprire e catalogare i metadati.
Un aspetto fondamentale del principio "dati come prodotto" è rendere i dati facilmente reperibili. La condivisione dei dati di BigQuery ti consente di creare un marketplace di prodotti di dati. Ciò consente ai team di dominio di condividere in modo sicuro i prodotti di dati con altri team senza dover copiare o spostare i dati. Può aiutare i consumatori di dati a trovare i dati di cui hanno bisogno e fornisce loro un'interfaccia chiara e ben definita per accedervi.
I servizi serverless di Google Cloud consentono ai team di dominio di creare e gestire i propri prodotti dati con un overhead minimo. BigQuery è un potente data warehouse serverless che consente ai team di analizzare grandi set di dati in modo rapido ed efficiente. Dataflow è un servizio di elaborazione dati serverless che può essere utilizzato per creare e automatizzare pipeline di dati per prodotti di dati. Questi servizi riducono la necessità di un team centrale di data engineering per gestire l'infrastruttura, rendendo i team di dominio più autonomi e agili.
La governance computazionale federata è il principio secondo cui un team centrale definisce le regole globali, consentendo però ai team di dominio di applicarle. Le condizioni di Identity and Access Management (IAM) di Google Cloud forniscono gli strumenti per implementare questa funzionalità. Le condizioni IAM consentono il controllo dell'accesso basato su attributi (ABAC), in cui puoi configurare autorizzazioni granulari in base agli attributi dei dati. Ad esempio, è possibile creare una policy che consenta a un utente di accedere ai dati dei clienti solo dalla propria area geografica specifica, contribuendo a garantire la conformità alle normative sulla sovranità dei dati come il GDPR.
Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.