Individuare e utilizzare i prodotti di dati in un data mesh

Last reviewed 2024-09-03 UTC

Ti consigliamo di progettare il tuo mesh di dati in modo da supportare un'ampia varietà di usi per il consumo dei dati. I casi d'uso più comuni per il consumo di dati in un'organizzazione sono descritti in questo documento. Il documento illustra inoltre quali informazioni devono essere prese in considerazione dai consumatori di dati per determinare il prodotto di dati più adatto al loro caso d'uso e come vengono scoperti e utilizzati i prodotti di dati. Comprensione questi fattori possono aiutare le organizzazioni ad avere la giusta guida e sugli strumenti atti a supportare i consumatori dei dati.

Questo documento fa parte di una serie che descrive come implementare un mesh di dati su Google Cloud. Si presuppone che tu abbia letto e abbia familiarità con concetti descritti in Architettura e funzioni in un mesh di dati e Crea un moderno mesh di dati distribuito con Google Cloud.

La serie è composta dalle seguenti parti:

La progettazione di un livello di consumo dei dati, in particolare, del modo in cui i consumatori utilizzano prodotti di dati, dipende dai requisiti dei consumatori dei dati. Come si presuppone che i consumatori abbiano in mente un caso d'uso. Si presume che hanno identificato i dati di cui hanno bisogno e che possono eseguire ricerche dati del catalogo dei prodotti per trovarlo. Se i dati non sono presenti nel catalogo o non sono nello stato preferito (ad esempio, se l'interfaccia non è appropriata o gli SLA non sono sufficienti), il consumatore deve contattare il produttore dei dati.

In alternativa, il consumatore può contattare il centro di eccellenza (COE) per il data mesh per ricevere consigli su quale dominio è il più adatto per produrre il prodotto dato. I consumatori di dati possono anche chiedere come presentare la richiesta. Se le tue organizzazione è grande, deve esistere un processo per rendere i prodotti dati delle richieste in modo self-service.

I consumatori di dati utilizzano i prodotti di dati tramite le applicazioni che eseguono. La il tipo di insight richiesti guida la scelta della progettazione dell'infrastruttura che consuma un'applicazione. Quando sviluppano la progettazione dell'applicazione, il consumatore di dati identifica anche l'uso preferito dei prodotti dati nell'applicazione. Devono avere la certezza che i dati siano attendibili e affidabili. I consumatori dei dati possono quindi stabilire una visione e gli SLA (accordi sul livello del servizio) dei prodotti dati richiesti dall'applicazione.

Casi d'uso sul consumo dei dati

Affinché i consumatori di dati possano creare applicazioni di dati, le origini potrebbero essere uno o più prodotti di dati e, forse, i dati del dominio del consumatore di dati. Come descritti in Creare prodotti di dati in un mesh di dati, i prodotti di dati analitici potrebbero essere realizzati a partire dai dati basati su vari repository fisici di dati.

Sebbene il consumo di dati possa avvenire nello stesso dominio, i pattern di consumo più comuni sono quelli che cercano il prodotto di dati corretto, indipendentemente dal dominio, come origine dell'applicazione. Quando vengono raccolti i dati esiste in un altro dominio, il modello di consumo richiede la configurazione il conseguente meccanismo di accesso e utilizzo dei dati tra domini. La consumo di prodotti dati creati in domini diversi da quello che utilizza è discusso in Passaggi del consumo dei dati.

Architettura

Il seguente diagramma mostra uno scenario di esempio in cui i consumatori utilizzano i dati prodotti attraverso una serie di interfacce, compresi set di dati autorizzati e su quelle di livello inferiore.

Scenari di consumo dei dati, descritti nel testo che segue.

Come mostrato nel diagramma precedente, il producer di dati ha esposto quattro dati interfacce del prodotto: due set di dati autorizzati BigQuery, Set di dati BigQuery esposto dall'API BigQuery Storage Read e le API di accesso ai dati ospitate su Google Kubernetes Engine. Utilizzando i prodotti dati, i consumatori dei dati utilizzano una serie di applicazioni che interrogano o accedono direttamente al all'interno dei prodotti dati. Per questo scenario, i consumatori dei dati accedere alle risorse di dati in due modi diversi in base ai loro dati specifici requisiti di accesso. Nel primo caso, Looker utilizza BigQuery SQL per eseguire query su un set di dati autorizzato. Nel secondo modo, Dataproc accede direttamente a un set di dati tramite l'API BigQuery e quindi elabora che per addestrare un modello di machine learning (ML).

L'utilizzo di un'applicazione di consumo di dati potrebbe non sempre generare un report di Intelligence (BI) o una dashboard di BI. Il consumo di dati di un dominio può anche generare modelli ML che arricchiscono ulteriormente i prodotti di analisi, vengono utilizzati nell'analisi dei dati o fanno parte di processi operativi, ad esempio il rilevamento delle frodi.

Di seguito sono riportati alcuni casi d'uso tipici di consumo dei prodotti di dati:

  • Report e analisi dei dati sulla BI: in questo caso, le applicazioni di dati create per consumare i dati di più prodotti dati. Ad esempio, i dati i consumatori del team di gestione dei rapporti con i clienti (CRM) necessitano dell'accesso ai dati provenienti da più domini, ad esempio vendite, clienti e finanza. La un'applicazione CRM sviluppata da questi dati che i consumatori hanno bisogno eseguire query sia su una vista autorizzata di BigQuery in un dominio estrarre dati da un'API Cloud Storage Read in un altro dominio. Per i consumatori di dati, i fattori di ottimizzazione che influiscono sull'interfaccia di consumo preferita sono i costi di calcolo e l'eventuale elaborazione aggiuntiva dei dati richiesta dopo la query sul prodotto di dati. Nei casi d'uso di BI e analisi dei dati, le viste autorizzate di BigQuery sono probabilmente le più utilizzate.
  • Casi d'uso di data science e addestramento di modelli: in questo caso, i dati dei consumatori utilizza i prodotti dati di altri domini per arricchire un proprio prodotto di dati analitici, ad esempio un modello ML. Utilizzando Dataproc Serverless per Spark, Google Cloud fornisce dati di pre-elaborazione e feature engineering per consentire i dati l'arricchimento prima di eseguire attività ML. Le considerazioni chiave sono la disponibilità di quantità sufficienti di dati di addestramento a un costo ragionevole e la certezza che i dati di addestramento siano appropriati. Per contenere i costi, le interfacce di consumo preferite sono probabilmente API di lettura diretta. È possibile per un team che utilizza i dati creare un modello ML come prodotto di dati e, a sua volta, diventare un nuovo team che produce dati.
  • Processi dell'operatore: il consumo fa parte del processo operativo all'interno del dominio che utilizza i dati. Ad esempio, un consumatore di dati in un team che si occupa di attività fraudolente potrebbe utilizzare dati sulle transazioni provenienti delle origini dati operative nel dominio del commerciante. Utilizzando un modello di integrazione come Change Data Capture (CDC), questi dati delle transazioni intercettate quasi in tempo reale. Puoi quindi usare Pub/Sub per definire schema per questi dati ed esponi queste informazioni come eventi. In questo caso, le interfacce appropriate sarebbero i dati esposti come argomenti Pub/Sub.

Passaggi per il consumo dei dati

I produttori di dati documentano il proprio prodotto nel catalogo centrale, incluse le indicazioni su come utilizzare i dati. Per un'organizzazione con più domini, questo approccio alla documentazione crea un'architettura diversa tradizionale pipeline ELT/ETL creata centralmente, in cui i processori creano output senza i confini dei domini aziendali. I consumatori dei dati in un mesh di dati devono disporre di un livello di rilevamento e consumo ben progettato per creare durante il ciclo di vita del consumo. Il livello deve includere quanto segue:

Passaggio 1: scopri i prodotti di dati attraverso la ricerca dichiarativa e l'esplorazione del specifiche di prodotto: i consumatori dei dati sono liberi di cercare qualsiasi dato prodotto registrato dai produttori nel catalogo centrale. Per tutti i dati prodotti, il tag dei prodotti dati specifica come effettuare le richieste di accesso ai dati e la modalità per consumare i dati dall'interfaccia richiesta del prodotto dati. I campi dei tag dei prodotti di dati sono disponibili per la ricerca utilizzando un'applicazione di ricerca. Le interfacce dei prodotti di dati implementano gli URI dei dati, il che significa che non è necessario spostare i dati in una zona di consumo separata per fornire servizi ai consumatori. Nei casi in cui i dati in tempo reale non siano necessari, i consumatori eseguono query sui prodotti di dati e creano report vengono generati.

Passaggio 2: esplora i dati attraverso l'accesso interattivo ai dati e la prototipazione: dati i consumatori usano strumenti interattivi come BigQuery Studio i blocchi note Jupyter per interpretare e sperimentare i dati al fine di perfezionare le query necessarie per l'uso in produzione. Le query interattive consentono ai consumatori di dati di esplorare nuove dimensioni dei dati e migliorare la correttezza degli approfondimenti generati negli scenari di produzione.

Passaggio 3: utilizza un prodotto di dati attraverso un'applicazione con la pubblicità programmatica di accesso e produzione:

  • Report di BI. Report e dashboard batch e quasi in tempo reale costituiscono il gruppo più comune di casi d'uso di analisi richiesti dai consumatori di dati. Segnalazioni potrebbero richiedere l'accesso a più prodotti tra loro per facilitare il processo decisionale. Ad esempio, una piattaforma per i dati dei clienti richiede l'esecuzione di query in modo programmatico sia gli ordini che i prodotti di dati CRM in modo pianificato. I risultati di questo approccio forniscono agli utenti aziendali che utilizzano i dati una visione olistica del cliente.
  • Modello AI/ML per previsioni batch e in tempo reale. I data scientist utilizzano principi MLOps comuni per creare e gestire modelli ML che consumano dati messi a disposizione dai team di prodotto dei dati. I modelli ML forniscono funzionalità di inferenza in tempo reale per casi d'uso transazionali come il rilevamento di attività fraudolente. Analogamente, con l'analisi esplorativa dei dati, i consumer di dati possono arricchire i dati di origine. Ad esempio, un'analisi esplorativa dei dati sulle vendite i dati delle campagne di marketing mostrano i segmenti di clienti demografici in cui le vendite si prevede che saranno più elevate e, di conseguenza, dove devono essere pubblicate le campagne.

Passaggi successivi