Scopri e utilizza i prodotti dati in un data mesh

Last reviewed 2022-10-06 UTC

Ti consigliamo di progettare il tuo data mesh in modo da supportare un'ampia varietà di casi d'uso per il consumo dei dati. I casi d'uso più comuni relativi al consumo dei dati in un'organizzazione sono descritti in questo documento. Il documento illustra inoltre le informazioni che i consumatori di dati devono considerare al momento di determinare il prodotto dati giusto per il loro caso d'uso, nonché il modo in cui scoprono e utilizzano i prodotti dati. La comprensione di questi fattori può aiutare le organizzazioni a garantire di disporre delle linee guida e degli strumenti giusti a supporto dei consumatori dei dati.

Questo documento fa parte di una serie che descrive come implementare un data mesh su Google Cloud. Presuppone che tu abbia letto e abbia familiarità con i concetti descritti in Architettura e funzioni in un data mesh e Creare un data mesh moderno e distribuito con Google Cloud.

La serie è costituita dai seguenti componenti:

La progettazione di un livello di consumo dati, nello specifico il modo in cui i consumatori basati sul dominio dati utilizzano i prodotti dati, dipende dai requisiti dei consumatori. Come prerequisito, si presume che i consumatori abbiano in mente un caso d'uso. Si presume che abbiano identificato i dati richiesti e possano eseguire ricerche nel catalogo dei prodotti dei dati centrale per trovarli. Se i dati non sono nel catalogo o non si trovano nello stato desiderato (ad esempio se l'interfaccia non è appropriata o gli SLA sono insufficienti), il consumatore deve contattare il produttore dei dati.

In alternativa, il consumatore può contattare il centro di eccellenza (COE) per il data mesh per consigli sul dominio più adatto per produrre quel prodotto dati. I consumatori dei dati possono anche chiedere come presentare la loro richiesta. Se la tua organizzazione è di grandi dimensioni, dovrebbe essere disponibile una procedura per visualizzare le richieste di prodotti dati in modo self-service.

I consumatori dei dati utilizzano i prodotti dati tramite le applicazioni che eseguono. Il tipo di insight richiesti guida la scelta della progettazione dell'applicazione che utilizza i dati. Quando sviluppa il design dell'applicazione, il consumatore di dati identifica anche l'uso preferito dei prodotti dati nell'applicazione. Stabilire la fiducia di cui avere bisogno nell'affidabilità e nell'affidabilità dei dati. I consumatori dei dati possono quindi stabilire una visione delle interfacce dei prodotti dati e degli SLA (accordi sul livello del servizio) richiesti dall'applicazione.

Casi d'uso relativi al consumo dei dati

Per consentire ai consumatori di dati di creare applicazioni di dati, le origini potrebbero riguardare uno o più prodotti di dati e forse i dati del dominio del consumatore di dati. Come descritto in Creare prodotti dati in un data mesh, i prodotti per dati analitici potrebbero essere creati da prodotti dati basati su vari repository di dati fisici.

Sebbene il consumo dei dati possa avvenire all'interno dello stesso dominio, i pattern di consumo più comuni sono quelli che cercano il prodotto dati giusto, indipendentemente dal dominio, come origine per l'applicazione. Quando il prodotto dati giusto esiste in un altro dominio, il modello di consumo richiede la configurazione del meccanismo successivo per l'accesso e l'utilizzo dei dati tra i domini. Il consumo di prodotti dati creati in domini diversi da quello in uso è discusso nella sezione Passaggi di utilizzo dei dati.

Architettura

Il seguente diagramma mostra uno scenario di esempio in cui i consumatori utilizzano prodotti dati tramite una serie di interfacce, tra cui set di dati e API autorizzati.

Scenari di consumo dei dati, spiegati nel testo che segue.

Come mostrato nel diagramma precedente, il produttore di dati ha esposto quattro interfacce dei prodotti dati: due set di dati autorizzati di BigQuery, un set di dati BigQuery esposto dall'API di lettura dello spazio di archiviazione BigQuery e le API di accesso ai dati ospitate su Google Kubernetes Engine. Nell'uso dei prodotti dati, i consumer di dati utilizzano una serie di applicazioni che eseguono query o accedono direttamente alle risorse di dati all'interno dei prodotti dati. In questo scenario, i consumatori dei dati accedono alle risorse di dati in due modi diversi in base ai requisiti specifici di accesso ai dati. Nel primo caso, Looker usa BigQuery SQL per eseguire query su un set di dati autorizzato. Nel secondo modo, Dataproc accede direttamente a un set di dati tramite l'API BigQuery, quindi elabora i dati importati per addestrare un modello di machine learning (ML).

L'utilizzo di un'applicazione di consumo dei dati potrebbe non comportare sempre la generazione di un report di Business Intelligence (BI) o di una dashboard BI. Il consumo di dati da un dominio può anche portare a modelli ML che arricchiscono ulteriormente i prodotti analitici, vengono utilizzati nell'analisi dei dati o fanno parte di processi operativi, ad esempio il rilevamento di attività fraudolente.

Ecco alcuni casi d'uso tipici relativi al consumo di prodotti dati:

  • Report BI e analisi dei dati: in questo caso, le applicazioni di dati sono create per utilizzare i dati di più prodotti dati. Ad esempio, i consumatori del team di gestione dei rapporti con i clienti (CRM) devono poter accedere ai dati di più domini, come vendite, clienti e finanza. L'applicazione CRM sviluppata da questi consumer di dati potrebbe dover eseguire query su una vista autorizzata BigQuery in un dominio ed estrarre i dati da un'API Cloud Storage Read in un altro dominio. Per i consumatori dei dati, i fattori di ottimizzazione che influenzano la loro interfaccia di consumo preferita sono i costi di calcolo e l'eventuale elaborazione dei dati aggiuntiva richiesta dopo l'esecuzione di query sul prodotto dati. Nei casi d'uso di BI e analisi dei dati, è probabile che le viste autorizzate di BigQuery vengano utilizzate più comunemente.
  • Casi d'uso di data science e addestramento dei modelli: in questo caso, il team che utilizza i dati utilizza i prodotti dati di altri domini per arricchire il proprio prodotto di dati analitici, come un modello di ML. Utilizzando Dataproc Serverless per Spark, Google Cloud fornisce funzionalità di pre-elaborazione dei dati e feature engineering per consentire l'arricchimento dei dati prima di eseguire attività di ML. Le considerazioni chiave sono la disponibilità di quantità sufficienti di dati di addestramento a un costo ragionevole e la certezza che i dati di addestramento siano i dati appropriati. Per contenere i costi, le interfacce di consumo preferite sono probabilmente API di lettura diretta. Un team che utilizza i dati può creare un modello ML come un prodotto dati e, a sua volta, questo team diventa anche un nuovo team per la produzione di dati.
  • Processi operatori: il consumo fa parte del processo operativo all'interno del dominio che utilizza i dati. Ad esempio, un consumatore di dati in un team che si occupa di attività fraudolente potrebbe utilizzare dati delle transazioni provenienti da origini dati operative nel dominio del commerciante. Utilizzando un metodo di integrazione dei dati come Change Data Capture (CDC), i dati delle transazioni vengono intercettati quasi in tempo reale. Puoi quindi utilizzare Pub/Sub per definire uno schema per questi dati ed esporre le informazioni come eventi. In questo caso, le interfacce appropriate saranno i dati esposti come argomenti Pub/Sub.

Passaggi relativi al consumo dei dati

I data producer documentano i propri prodotti dati nel catalogo centrale, incluse indicazioni su come utilizzare i dati. Per un'organizzazione con più domini, questo approccio alla documentazione crea un'architettura diversa dalla tradizionale pipeline ELT/ETL creata a livello centrale, in cui i processori creano output senza il confine dei domini aziendali. I consumatori dei dati in un data mesh devono avere un livello di rilevamento e consumo ben progettato per creare un ciclo di vita del consumo di dati. Il livello deve includere quanto segue:

Passaggio 1: scopri i prodotti dati tramite la ricerca dichiarativa e l'esplorazione delle specifiche di prodotto dei dati: i consumatori dei dati sono liberi di cercare qualsiasi prodotto dati che i produttori di dati hanno registrato nel catalogo centrale. Per tutti i prodotti dati, il tag del prodotto dati specifica come effettuare richieste di accesso ai dati e la modalità per utilizzare i dati dall'interfaccia del prodotto dati richiesta. I campi nei tag dei prodotti dati sono disponibili per la ricerca tramite un'applicazione di ricerca. Le interfacce dei prodotti dati implementano gli URI dati, il che significa che i dati non devono essere spostati in una zona di consumo separata per i consumer dei servizi. Nei casi in cui non sono necessari dati in tempo reale, i consumatori eseguono query sui prodotti dati e creano report con i risultati generati.

Passaggio 2: esplora i dati tramite l'accesso interattivo ai dati e la prototipazione: i consumatori di dati utilizzano strumenti interattivi come BigQuery Studio e i blocchi note Jupyter per interpretarli e sperimentarli al fine di perfezionare le query di cui hanno bisogno per l'uso in produzione. Le query interattive consentono ai consumatori di dati di esplorare dimensioni di dati più recenti e di migliorare la correttezza degli insight generati negli scenari di produzione.

Passaggio 3: utilizzo del prodotto dati tramite un'applicazione, con accesso programmatico e produzione:

  • Report BI. I report e le dashboard in modalità batch e quasi in tempo reale sono il gruppo più comune di casi d'uso analitici richiesti dai consumatori dei dati. I report potrebbero richiedere l'accesso a più prodotti per facilitare il processo decisionale. Ad esempio, una piattaforma per i dati dei clienti richiede di eseguire query programmate su ordini e prodotti CRM in modo pianificato. I risultati di un simile approccio forniscono una visione olistica del cliente per gli utenti aziendali che consumano i dati.
  • Modello AI/ML per la previsione in batch e in tempo reale. I data scientist utilizzano principi MLOps comuni per creare e gestire modelli ML che utilizzano prodotti dati messi a disposizione dai team di prodotto dati. I modelli di ML offrono funzionalità di inferenza in tempo reale per casi d'uso transazionali come il rilevamento di frodi. Analogamente, con l'analisi esplorativa dei dati, i consumatori dei dati possono arricchire i dati di origine. Ad esempio, l'analisi esplorativa dei dati delle campagne di vendita e marketing mostra i segmenti di clienti demografici in cui si prevede che le vendite saranno più elevate e quindi dove dovrebbero essere pubblicate le campagne.

Passaggi successivi