Architettura e funzioni in un mesh di dati

Last reviewed 2022-10-06 UTC

Un mesh di dati è un framework architetturale e organizzativo che tratta i dati come un prodotto (in questo documento definito "prodotti dati"). In questo framework, i prodotti dati sono sviluppati dai team che meglio comprendono i dati e che seguono un set di standard di governance dei dati a livello di organizzazione. Una volta eseguito il deployment dei prodotti dati nel mesh di dati, i team distribuiti di un'organizzazione possono rilevare e accedere ai dati pertinenti alle loro esigenze in modo più rapido ed efficiente. Per ottenere un mesh di dati ben funzionante, devi prima definire i componenti architetturali di alto livello e i ruoli organizzativi descritti in questo documento.

Questo documento fa parte di una serie che descrive come implementare un mesh di dati su Google Cloud. Si presuppone che tu abbia letto e abbia familiarità con i concetti descritti in Creare un data mesh moderno e distribuito con Google Cloud.

La serie è composta dalle seguenti parti:

In questa serie, il mesh di dati descritto è interno a un'organizzazione. Sebbene sia possibile estendere un'architettura di mesh di dati per fornire prodotti dati a terze parti, questo approccio esteso non rientra nell'ambito di questo documento. L'estensione di un mesh di dati richiede ulteriori considerazioni oltre al semplice utilizzo all'interno di un'organizzazione.

Architettura

I seguenti termini chiave vengono utilizzati per definire i componenti dell'architettura descritti in questa serie:

  • Prodotto dati: un prodotto dati è un contenitore logico o un raggruppamento di una o più risorse di dati correlate.
  • Risorsa di dati: una risorsa di dati è un asset fisico in un sistema di archiviazione che contiene dati strutturati o archivia una query che restituisce dati strutturati.
  • Attributo dei dati:un attributo dei dati è un campo o un elemento di una risorsa di dati.

Il seguente diagramma fornisce una panoramica dei principali componenti architetturali in un mesh di dati implementato su Google Cloud.

Componenti dell'architettura in un mesh di dati.

Il diagramma precedente mostra quanto segue:

  • I servizi centrali consentono la creazione e la gestione di prodotti dati, tra cui criteri dell'organizzazione che interessano i partecipanti al mesh di dati, i controlli dell'accesso (tramite gruppi Identity and Access Management) e gli artefatti specifici dell'infrastruttura. Esempi di impegni e prenotazioni, nonché l'infrastruttura che facilita il funzionamento del mesh di dati, sono descritti in Creare componenti e soluzioni di piattaforma.
  • I servizi centrali forniscono principalmente Data Catalog per tutti i prodotti dati nel mesh di dati e il meccanismo di rilevamento per i potenziali clienti di questi prodotti.
  • I domini di dati espongono sottoinsiemi di dati come prodotti dati tramite interfacce di consumo dei dati ben definite. Questi prodotti di dati possono essere tabelle, viste, file strutturati, argomenti o stream. In BigQuery è un set di dati, mentre in Cloud Storage una cartella o un bucket. Ci possono essere diversi tipi di interfacce che possono essere esposte come prodotto dati. Un esempio di interfaccia è la vista BigQuery su una tabella BigQuery. I tipi di interfacce più comunemente utilizzati per scopi di analisi sono descritti in Creare prodotti dati in un mesh di dati.

Implementazione dei riferimenti del mesh di dati

Puoi trovare un'implementazione di riferimento di questa architettura nel repository data-mesh-demo. Gli script Terraform utilizzati nell'implementazione di riferimento dimostrano i concetti di base del mesh di dati e non sono destinati all'uso in produzione. Eseguendo questi script, imparerai a svolgere le seguenti operazioni:

  • Separa le definizioni del prodotto dai dati sottostanti.
  • Crea modelli di Data Catalog per descrivere le interfacce dei prodotti.
  • Tagga le interfacce dei prodotti con questi modelli.
  • Concedi le autorizzazioni ai consumatori dei prodotti.

Per le interfacce dei prodotti, l'implementazione di riferimento crea e utilizza i seguenti tipi di interfaccia:

  • Visualizzazioni autorizzate sulle tabelle BigQuery.
  • Stream di dati basati su argomenti Pub/Sub.

Per ulteriori dettagli, fai riferimento al file README nel repository.

Funzioni in un mesh di dati

Affinché un mesh di dati funzioni correttamente, devi definire ruoli chiari per le persone che svolgono attività all'interno del mesh di dati. La proprietà è assegnata agli archetipi o funzioni dei team. Queste funzioni contengono i percorsi principali dell'utente per le persone che lavorano nel mesh di dati. Per descrivere chiaramente i percorsi degli utenti, agli utenti sono stati assegnati ruoli utente. Questi ruoli utente possono essere suddivisi e combinati in base alle circostanze di ciascuna azienda. Non è necessario mappare i ruoli direttamente con i dipendenti o i team della tua organizzazione.

Un dominio dati è allineato con un'unità aziendale (BU) o una funzione all'interno di un'azienda. Esempi comuni di domini aziendali potrebbero essere l'ufficio ipotecari di una banca o i reparti dedicati ai clienti, ai reparti di distribuzione, finanziari o alle risorse umane di un'azienda. Concettualmente, ci sono due funzioni correlate al dominio in una mesh di dati: i team di produttore di dati e i team di consumatore di dati. È importante comprendere che è probabile che un singolo dominio di dati serva entrambe le funzioni contemporaneamente. Un team che si occupa del dominio dati produce prodotti dati dai dati di sua proprietà. Il team consuma anche prodotti dati per insight aziendali e per generare prodotti di dati derivati da utilizzare per altri domini.

Oltre alle funzioni basate sul dominio, un mesh di dati ha anche un insieme di funzioni eseguite da team centralizzati all'interno dell'organizzazione. Questi team centrali consentono il funzionamento del mesh di dati fornendo supervisione, servizi e governance interdominio. Riducono il carico operativo dei domini di dati per la produzione e il consumo di prodotti dati e facilitano le relazioni interdominio necessarie per il funzionamento del mesh di dati.

Questo documento descrive solo le funzioni che hanno un ruolo specifico per il mesh di dati. Esistono molti altri ruoli richiesti in ogni azienda, indipendentemente dall'architettura utilizzata per la piattaforma. Questi altri ruoli, tuttavia, non rientrano nell'ambito di questo documento.

Le quattro funzioni principali in un mesh di dati sono le seguenti:

  • Team di producer basati su dominio dati: creano e mantengono i prodotti dati durante il loro ciclo di vita. Questi team sono spesso indicati come produttori di dati.
  • Team di consumatori basati sul dominio dei dati: scopri i prodotti dati e utilizzali in varie applicazioni di analisi. Questi team potrebbero utilizzare prodotti di dati per crearne di nuovi. Questi team sono spesso definiti consumatori dei dati.
  • Team centrale per la governance dei dati: definisce e applica criteri di governance dei dati tra i produttori, garantendo un'elevata qualità e affidabilità dei dati ai consumatori. Questo team è spesso indicato come team di governance dei dati.
  • Team centrale per la piattaforma di infrastruttura dati self-service: fornisce una piattaforma dati self-service per i produttori di dati. Questo team fornisce inoltre gli strumenti per la rilevabilità centralizzata dei dati e l'osservabilità dei prodotti dati utilizzati sia dai consumatori che dai produttori di dati. Questo team viene spesso indicato come team della piattaforma dati.

Una funzione extra facoltativa da considerare è quella di un centro di eccellenza (COE) per il mesh di dati. Lo scopo del COE è fornire la gestione della rete di dati. Il COE è anche il team arbitrale designato che risolve eventuali conflitti sollevati da una qualsiasi delle altre funzioni. Questa funzione è utile per collegare le altre quattro funzioni.

Team di producer basato su dominio dati

In genere, i prodotti dati sono basati su un repository fisico di dati (uno o più data warehouse, data lake o flussi). Un'organizzazione ha bisogno di ruoli tradizionali nelle piattaforme di dati per creare e mantenere questi repository fisici. Tuttavia, questi ruoli delle piattaforme dati tradizionali non sono in genere quelli che creano il prodotto dati.

Per creare prodotti dati da questi repository fisici, un'organizzazione ha bisogno di un mix di professionisti dei dati, come data engineer e data architect. La tabella riportata di seguito elenca tutti i ruoli utente specifici del dominio necessari nei team del producer di dati.


Ruolo

Responsabilità

Competenze richieste

Risultati auspicati

Proprietario del prodotto dati
  • Agisce come punto di contatto principale dell'azienda per il prodotto dati.
  • È responsabile delle definizioni, dei criteri, delle decisioni aziendali e dell'applicazione delle regole aziendali per i dati esposti come prodotti.
  • Funge da punto di contatto per domande aziendali. Pertanto, il proprietario rappresenta il dominio dei dati quando si incontra con i team di consumatori di dati o con i team centralizzati (piattaforma di governance dei dati e infrastruttura dei dati).

Analisi dei dati

Architettura dei dati

Gestione dei prodotti
  • Il prodotto di dati sta generando valore per i consumatori. Viene fornita una gestione solida del ciclo di vita del prodotto dati, inclusa la decisione di ritirare un prodotto o rilasciare una nuova versione.
  • Gli elementi di dati universali sono coordinati con altri domini di dati.

Responsabile tecnico del prodotto dati
  • Rappresenta il punto di contatto tecnico principale per il prodotto.
  • Si occupa dell'implementazione e della pubblicazione delle interfacce dei prodotti.
  • Funge da punto di contatto per domande tecniche. Di conseguenza, il lead rappresenta il dominio dei dati quando si incontra con i team di consumatori di dati o con i team centralizzati (piattaforma di governance dei dati e infrastruttura dei dati).
  • Collabora con il team di governance dei dati per definire e implementare standard del mesh di dati all'interno dell'organizzazione.
  • Collabora con il team della piattaforma dati per contribuire allo sviluppo della piattaforma di pari passo con le esigenze tecniche generate dalla produzione e dal consumo.

Data engineering

Architettura dei dati

Software engineering
  • Il prodotto dati soddisfa i requisiti aziendali ed è conforme agli standard tecnici del data mesh.
  • I team dei consumatori di dati utilizzano il prodotto dati e questi vengono visualizzati nei risultati generati dall'esperienza di rilevamento del prodotto di dati.
  • L'utilizzo del prodotto dati può essere analizzato (ad esempio, il numero di query giornaliere).


Assistenza per i prodotti dati
  • Funge da punto di contatto per l'assistenza in produzione.
  • Si occupa del mantenimento dell'accordo sul livello del servizio (SLA) del prodotto.

Ingegneria del software

Site Reliability Engineering (SRE)
  • Il prodotto dati soddisfa lo SLA (accordo sul livello del servizio) dichiarato.
  • Le domande dei consumatori di dati sull'utilizzo del prodotto di dati vengono risolte e risolte.

Esperto in materia (SME) per il dominio dei dati
  • Rappresenta il dominio dei dati durante gli incontri con PMI di altri domini di dati per stabilire le definizioni degli elementi di dati e i confini comuni all'interno dell'organizzazione.
  • aiuta i nuovi produttori di dati all'interno del dominio a definire gli ambiti dei prodotti.

Analisi dei dati

Architettura dei dati
  • Collabora con altre PMI di vari domini di dati per stabilire e mantenere una comprensione completa dei dati all'interno dell'organizzazione e dei modelli di dati che utilizza.
  • Facilita la creazione di prodotti dati interoperabili che corrispondono al modello dei dati complessivo dell'organizzazione.
  • Esistono standard chiari per la creazione dei prodotti di dati e la gestione del ciclo di vita.
  • I prodotti dati del dominio dati forniscono valore aziendale.

Proprietario dei dati
  • È responsabile di un'area di contenuti.
  • È responsabile della qualità e dell'accuratezza dei dati.
  • Approva le richieste di accesso.
  • Contribuisce alla documentazione del prodotto dati.
  • Qualsiasi abilità, ma deve avere una conoscenza approfondita della funzione aziendale.
  • Qualsiasi abilità, ma deve avere una conoscenza approfondita del significato dei dati e delle regole aziendali che li riguardano.
  • Qualsiasi competenza, ma deve essere in grado di determinare la migliore risoluzione possibile ai problemi di qualità dei dati.
  • I dati utilizzati in aree interfunzionali sono accurati.
  • Gli stakeholder comprendono i dati.
  • L'utilizzo dei dati è conforme alle norme di utilizzo.

Team dei consumatori basati sul dominio dei dati

In un mesh di dati, le persone che utilizzano un prodotto di dati sono in genere utenti di dati esterni al dominio del prodotto dati. Usano un catalogo dati centrale per trovare prodotti dati pertinenti alle loro esigenze. Poiché è possibile che più di un prodotto di dati possa soddisfare le loro esigenze, i consumatori di dati possono finire per abbonarsi a più prodotti dati.

Se i consumatori dei dati non riescono a trovare il prodotto dati richiesto per il loro caso d'uso, è loro responsabilità consultare direttamente il COE del mesh di dati. Durante la consultazione, i consumatori dei dati possono aumentare le loro esigenze in termini di dati e chiedere consigli su come soddisfarle da uno o più domini.

Quando cercano un prodotto dati, i consumatori dei dati cercano dati che li aiutino a raggiungere vari casi d'uso, come dashboard e report di analisi permanenti, report sul rendimento individuale e altre metriche sulle prestazioni aziendali. In alternativa, i consumatori dei dati potrebbero essere alla ricerca di prodotti di dati da utilizzare nei casi d'uso di intelligenza artificiale (AI) e machine learning (ML). Per ottenere questi vari casi d'uso, i consumatori dei dati richiedono una combinazione di utenti tipo di professionisti dei dati, che sono i seguenti:


Ruolo

Responsabilità

Competenze richieste

Risultati auspicati

Analista di dati

Cerca, identifica, valuta e sottoscrive prodotti dati per un singolo dominio o interdominio per creare una base per il funzionamento dei framework di business intelligence.

Analytics engineering

Analisi aziendale
  • Fornisce set di dati puliti, selezionati e aggregati che gli esperti di visualizzazione dei dati possono utilizzare.
  • Crea best practice su come utilizzare i prodotti dati.
  • Aggrega e seleziona set di dati interdominio per soddisfare le esigenze di analisi del proprio dominio.

Sviluppatore di applicazioni

Sviluppa un framework dell'applicazione per il consumo di dati in uno o più prodotti di dati, all'interno o all'esterno del dominio.

Sviluppo di applicazioni

Data engineering
  • Crea, gestisce e gestisce le applicazioni che utilizzano dati di uno o più prodotti dati.
  • Crea applicazioni di dati per il consumo da parte degli utenti finali.

Specialista della visualizzazione dei dati
  • Traduci il gergo del data engineering e dell'analisi dei dati in informazioni che gli stakeholder aziendali possono comprendere.
  • Definisce i processi per compilare i report aziendali a partire dai prodotti dati.
  • Crea e monitora i report che descrivono gli obiettivi commerciali strategici.
  • Collabora con i tecnici all'interno dell'organizzazione per progettare set di dati aggregati dai prodotti di dati utilizzati.
  • Implementa soluzioni di generazione di report.
  • Trasforma i requisiti aziendali in requisiti tecnici.

Analisi dei requisiti

Visualizzazione dei dati
  • Fornisce set di dati e report validi e accurati agli utenti finali.
  • I requisiti aziendali vengono soddisfatti tramite le dashboard e i report sviluppati.

Data scientist
  • Cerca, identifica, valuta e sottoscrive prodotti dati per casi d'uso di data science.
  • Estrae prodotti di dati e metadati da più domini di dati.
  • Addestra modelli predittivi ed esegue il deployment di questi modelli per ottimizzare i processi aziendali del dominio.
  • Fornisce feedback su possibili tecniche di selezione e annotazione dei dati per più domini di dati.

ML engineering

Ingegneria dell'analisi
  • Crea modelli predittivi e prescrittivi per ottimizzare i processi aziendali.
  • L'addestramento e il deployment del modello vengono eseguiti tempestivamente.

Team centrale per la governance dei dati

Il team per la governance dei dati consente a produttori e consumer di dati di condividere, aggregare e calcolare in sicurezza i dati in modo self-service, senza introdurre rischi di conformità per l'organizzazione.

Per soddisfare i requisiti di conformità dell'organizzazione, il team di governance dei dati è un mix di utenti tipo di professionisti dei dati, ovvero:


Ruolo

Responsabilità

Competenze richieste

Risultati auspicati

Specialista di governance dei dati
  • Offre supervisione e coordina un'unica visione della conformità.
  • Raccomanda criteri sulla privacy a livello di mesh per la raccolta, la protezione e la conservazione dei dati.
  • Garantisce che i gestori dei dati conoscano i criteri e possano accedervi.
  • Informa e consulta le più recenti normative sulla privacy dei dati, come richiesto.
  • Fornisce informazioni e consulenze sulle domande di sicurezza, se richiesto.
  • Esegue controlli interni e condivide report regolari sui piani di rischio e controllo.

SME legale

SME per la sicurezza

SME per la privacy dei dati
  • Le normative sulla privacy nelle norme sono aggiornate.
  • I produttori di dati vengono informati tempestivamente delle modifiche alle norme.
  • Il management riceve report tempestivi e regolari sulla conformità alle norme per tutti i prodotti di dati pubblicati.

Gestore dei dati (si trova all'interno di ciascun dominio)
  • Codifica i criteri creati dagli esperti di governance dei dati.
  • Definisce e aggiorna la tassonomia utilizzata da un'organizzazione per annotare prodotti dati, risorse di dati e attributi dei dati con metadati relativi a rilevamento e privacy.
  • Si coordina tra vari stakeholder all'interno e all'esterno del rispettivo dominio.
  • Garantisce che i prodotti dati nel loro dominio soddisfino gli standard dei metadati e le norme sulla privacy dell'organizzazione.
  • Fornisce indicazioni agli ingegneri della governance dei dati su come progettare e definire le priorità delle funzionalità delle piattaforme di dati.

Architettura dei dati

Stewardship dei dati
  • Sono stati creati i metadati richiesti per tutti i prodotti dati nel dominio e i prodotti dati per il dominio sono descritti con precisione.
  • Il team della piattaforma per l'infrastruttura dati self-service sta sviluppando gli strumenti giusti per automatizzare le annotazioni dei metadati dei prodotti dati, la creazione dei criteri e la verifica.

Data governance engineer
  • Sviluppa strumenti che generano automaticamente annotazioni dei dati e possono essere utilizzati da tutti i domini di dati, per poi utilizzare queste annotazioni per l'applicazione dei criteri.
  • Implementa il monitoraggio per verificare la coerenza di annotazioni e avvisi quando vengono rilevati problemi.
  • Garantisce che i dipendenti dell'organizzazione siano informati dello stato dei prodotti dati implementando avvisi, report e dashboard.

Ingegneria del software
  • Le annotazioni sulla governance dei dati vengono verificate automaticamente.
  • I prodotti dati sono conformi ai criteri di governance dei dati.
  • Le violazioni dei prodotti dati vengono rilevate in modo tempestivo.

Team della piattaforma per l'infrastruttura dati self-service centrale

Il team self-service della piattaforma per l'infrastruttura dati, o solo il team della piattaforma dati, è responsabile della creazione di un insieme di componenti dell'infrastruttura dei dati. I team dei domini di dati distribuiti utilizzano questi componenti per creare e distribuire i propri prodotti dati. Inoltre, il team della piattaforma dati promuove le best practice e introduce strumenti e metodologie che aiutano a ridurre il carico cognitivo per i team distribuiti quando adottano nuove tecnologie.

L'infrastruttura della piattaforma deve fornire una facile integrazione con gli strumenti operativi per l'osservabilità, la strumentazione e l'automazione della conformità a livello globale. In alternativa, l'infrastruttura deve facilitare tale integrazione per preparare i team distribuiti per il successo.

Il team della piattaforma dati ha un modello di responsabilità condivisa che utilizza con i team dei domini distribuiti e il team dell'infrastruttura sottostante. Il modello mostra le responsabilità che ci si aspetta dai consumatori della piattaforma e i componenti della piattaforma supportati dal team della piattaforma dati.

Poiché la piattaforma dati è di per sé un prodotto interno, non supporta tutti i casi d'uso. Il team della piattaforma dati rilascia continuamente nuovi servizi e funzionalità in base a una roadmap prioritaria.

Il team della piattaforma dati potrebbe aver implementato e in fase di sviluppo un set standard di componenti. Tuttavia, i team dei domini di dati potrebbero scegliere di utilizzare un insieme diverso e univoco di componenti se le esigenze di un team non sono in linea con quelle fornite dalla piattaforma dati. Se i team del dominio dati scelgono un approccio diverso, devono assicurarsi che qualsiasi infrastruttura della piattaforma che creano e gestiscono sia conforme ai criteri e ai sistemi di protezione a livello di organizzazione per la sicurezza e la governance dei dati. Per l'infrastruttura della piattaforma dati sviluppata al di fuori del team centrale della piattaforma dati, il team della piattaforma dati può scegliere di co-investire o incorporare i propri ingegneri nei team di dominio. La scelta di co-investire o incorporare gli engineer può dipendere dall'importanza strategica dell'infrastruttura della piattaforma del dominio dati per l'organizzazione. Rimanendo coinvolti nello sviluppo dell'infrastruttura da parte dei team di domini dati, le organizzazioni possono fornire l'allineamento e le competenze tecniche necessarie per riproporre tutti i nuovi componenti dell'infrastruttura della piattaforma che sono in fase di sviluppo per il riutilizzo futuro.

Potresti dover limitare l'autonomia nelle prime fasi della creazione di un mesh di dati se il tuo obiettivo iniziale è ottenere l'approvazione degli stakeholder per lo scale up della rete di dati. Tuttavia, la limitazione dell'autonomia rischia di creare un collo di bottiglia per il team centrale della piattaforma dei dati. Questo collo di bottiglia può impedire la scalabilità del mesh di dati. Pertanto, tutte le decisioni di centralizzazione devono essere prese con attenzione. Per i produttori di dati, la scelta tecnica da un insieme limitato di opzioni disponibili potrebbe essere preferibile alla valutazione e alla scelta da un elenco illimitato di opzioni. Promuovere l'autonomia dei produttori di dati non equivale a creare un panorama tecnologico non superato. L'obiettivo è promuovere la conformità e l'adozione della piattaforma trovando il giusto equilibrio tra libertà di scelta e standardizzazione.

Infine, un buon team per la piattaforma dati è una fonte centrale di formazione e best practice per il resto dell'azienda. Ecco alcune delle attività di maggiore impatto che consigliamo dai team centrali delle piattaforme di dati:

  • Promuovere revisioni periodiche della progettazione dell'architettura per nuovi progetti funzionali, nonché proporre metodi di sviluppo comuni.
  • Condividere conoscenze ed esperienze, per definire collettivamente best practice e linee guida per l'architettura.
  • Garantire che gli ingegneri dispongano degli strumenti giusti per convalidare e verificare la presenza di insidie comuni come problemi di codice, bug e riduzioni delle prestazioni.
  • Organizzare hackathon interni in modo che i team di sviluppo possano far emergere i requisiti per le esigenze di strumentazione interna.

I ruoli e le responsabilità di esempio per il team della piattaforma dati centrale potrebbero includere i seguenti:

Role Responsabilità
Competenze richieste
Risultati auspicati

Proprietario del prodotto della piattaforma dati
  • Crea un ecosistema di soluzioni e infrastrutture di dati per consentire ai team distribuiti di creare prodotti dati. Riduce gli ostacoli tecnici all'ingresso, garantisce l'integrazione della governance e minimizza il debito tecnico collettivo per l'infrastruttura dei dati.
  • Si interfaccia con dirigenti, proprietari dei domini dati, team per la governance dei dati e proprietari di piattaforme tecnologiche per impostare la strategia e la roadmap per la piattaforma dati.

Strategia e operazioni relative ai dati

Gestione dei prodotti

Gestione degli stakeholder
  • Crea un ecosistema di prodotti di dati di successo.
  • In produzione è disponibile un numero elevato di prodotti di dati.
  • Si è verificata una riduzione del tempo necessario per il prodotto minimo funzionante e dei tempi di produzione per le release dei prodotti dati.
  • È stato implementato un portafoglio di infrastrutture e componenti generalizzati in grado di soddisfare le esigenze più comuni dei produttori e dei consumatori di dati.
  • Produttori e consumatori di dati hanno ricevuto un alto punteggio di soddisfazione.

Data Platform Engineer
  • Crea soluzioni e infrastrutture di dati riutilizzabili e self-service per l'importazione, l'archiviazione, l'elaborazione e il consumo dei dati tramite modelli, progetti di architettura di cui è possibile eseguire il deployment, guide per gli sviluppatori e altra documentazione. Crea anche modelli Terraform, modelli di pipeline di dati, modelli di container e strumenti di orchestrazione.
  • Sviluppa e gestisce servizi e framework di dati centrali per standardizzare i processi per problemi interfunzionali come condivisione dei dati, orchestrazione delle pipeline, logging e monitoraggio, governance dei dati, integrazione continua e deployment continuo (CI/CD) con sistemi di protezione incorporati, reporting di sicurezza e conformità e reporting FinOps.

Data engineering

Software engineering
  • Esistono soluzioni e componenti di infrastruttura standardizzati e riutilizzabili che consentono ai produttori di dati di eseguire operazioni di importazione dati, archiviazione, elaborazione, selezione e condivisione dei dati, oltre alla documentazione necessaria.
  • Le versioni dei componenti, delle soluzioni e la documentazione per l'utente finale sono in linea con la roadmap.
  • Gli utenti segnalano un alto livello di soddisfazione del cliente.
  • Nella rete di dati sono disponibili servizi condivisi affidabili per tutte le funzioni.
  • L'uptime per i servizi condivisi è elevato.
  • Il tempo di risposta dell'assistenza è breve.

Platform and Security Engineer (un rappresentante dei team IT centrali, come networking e sicurezza, incorporato nel team della piattaforma dati)
  • Garantisce che le astrazioni della piattaforma dati siano allineate ai quadri tecnologici e alle decisioni a livello aziendale.
  • Supporta le attività di ingegneria creando le soluzioni e i servizi tecnologici nel proprio team di base che sono necessari per la distribuzione delle piattaforme di dati.

Ingegneria dell'infrastruttura

Ingegneria del software
  • I componenti dell'infrastruttura della piattaforma sono stati sviluppati per la piattaforma dati.
  • Le versioni dei componenti, delle soluzioni e la documentazione per l'utente finale sono in linea con la roadmap.
  • I tecnici della piattaforma di dati centrale riferiscono un alto livello di soddisfazione del cliente.
  • L'integrità della piattaforma migliora per i componenti utilizzati dalla piattaforma dati (come il logging).
  • I componenti tecnologici sottostanti hanno un tempo di attività elevato.
  • Quando gli ingegneri delle piattaforme di dati riscontrano problemi, il tempo di risposta dell'assistenza è breve.

Architettore aziendale
  • Allinea mesh di dati e architettura della piattaforma dati con tecnologia e strategia per i dati a livello aziendale.
  • Fornisce consulenza e autorità di progettazione e garanzia sia per la piattaforma dati che per le architetture dei prodotti dati per garantire l'allineamento con la strategia e le best practice di livello aziendale.

Architettura dei dati

iterazione della soluzione e risoluzione dei problemi

Creazione del consenso
  • Viene creato un ecosistema di successo che include una buona quantità di prodotti di dati i cui tempi sono ridotti sia per creare prodotti minimi utilizzabili sia per rilasciarli in produzione.
  • Sono stati stabiliti standard di architettura per i percorsi critici dei dati, ad esempio stabilendo standard comuni per la gestione dei metadati e per l'architettura di condivisione dei dati.

Considerazioni aggiuntive per un mesh di dati

Esistono più opzioni di architettura per una piattaforma di dati di analisi, ognuna con prerequisiti diversi. Per abilitare ogni architettura del mesh di dati, consigliamo alla tua organizzazione di seguire le best practice descritte in questa sezione.

Acquisisci finanziamenti per la piattaforma

Come spiegato nel post del blog, "Se vuoi trasformare iniziare con la finanza", la piattaforma non termina mai: funziona sempre sulla base di una roadmap prioritaria. Pertanto, la piattaforma deve essere finanziata come un prodotto, non come un progetto con un endpoint fisso.

I costi sono a carico del primo utilizzatore del mesh di dati. Di solito, il costo viene condiviso tra l'azienda che forma il primo dominio dati ad avviare il mesh di dati e il team tecnologico centrale, che in genere ospita il team della piattaforma dati centrale.

Per convincere i team finanziari ad approvare i finanziamenti per la piattaforma centrale, ti consigliamo di creare un business case che tenga conto del valore della piattaforma centralizzata realizzata nel tempo. Questo valore deriva dal reimplementazione degli stessi componenti nei singoli team di distribuzione.

Definire la piattaforma minima utilizzabile per il mesh di dati

Per aiutarti a definire la piattaforma minima utilizzabile per il mesh di dati, ti consigliamo di eseguire un progetto pilota e di eseguire l'iterazione di uno o più casi aziendali. Per il tuo progetto pilota, trova i casi d'uso necessari e in cui c'è un consumatore pronto ad adottare il prodotto di dati risultante. I casi d'uso dovrebbero già disporre di fondi per lo sviluppo dei prodotti dati, ma dovrebbero essere necessari input da parte dei team tecnici.

Assicurati che il team che implementa il progetto pilota comprenda il modello operativo del mesh di dati come segue:

  • L'azienda (ovvero il team del produttore dei dati) è proprietaria di arretrati, assistenza e manutenzione.
  • Il team centrale definisce i pattern self-service e aiuta l'azienda a creare il prodotto dati, ma passa il prodotto dati all'azienda affinché possa gestirlo e acquisirne la proprietà una volta completato.
  • L'obiettivo principale è dimostrare il modello operativo aziendale (prodotti domini, domini consumati). L'obiettivo secondario è dimostrare il modello tecnico-operativo (pattern self-service sviluppati dal team centrale).
  • Poiché le risorse del team della piattaforma sono limitate, utilizza il modello team di trunk e di ramo per raggruppare le conoscenze, ma consentire comunque lo sviluppo di servizi e prodotti di piattaforma specializzati.

Ti consigliamo inoltre di procedere nel seguente modo:

  • Pianifica le roadmap invece di lasciare che servizi e funzionalità si evolvano in modo organico.
  • Definire le funzionalità minime della piattaforma valide per importazione, archiviazione, elaborazione, analisi e ML.
  • Incorpora la governance dei dati in ogni fase, non come un flusso di lavoro separato.
  • Implementare le funzionalità minime per governance, piattaforma, flusso di valore e gestione dei cambiamenti. Le funzionalità minime soddisfano l'80% dei business case.

Pianificare la coesistenza del mesh di dati con una piattaforma dati esistente.

Molte organizzazioni che desiderano implementare un mesh di dati probabilmente dispongono già di una piattaforma dati, ad esempio un data lake, un data warehouse o una combinazione di entrambi. Prima di implementare un mesh di dati, queste organizzazioni devono fare un piano relativo all'evoluzione della loro piattaforma dati esistente all'espansione del mesh di dati.

Queste organizzazioni dovrebbero prendere in considerazione fattori quali:

  • Le risorse di dati più efficaci sul mesh di dati.
  • Gli asset che devono rimanere all'interno della piattaforma dati esistente.
  • Se gli asset devono essere spostati o se possono essere mantenuti sulla piattaforma esistente e continuare a partecipare al mesh di dati.

Passaggi successivi