Individuare e utilizzare i prodotti di dati in un data mesh

Last reviewed 2024-09-03 UTC

Ti consigliamo di progettare il tuo data mesh in modo da supportare un'ampia gamma di casi d'uso per il consumo di dati. I casi d'uso più comuni per il consumo di dati in un'organizzazione sono descritti in questo documento. Il documento illustra inoltre quali informazioni devono essere prese in considerazione dai consumatori di dati per determinare il prodotto di dati più adatto al loro caso d'uso e come vengono scoperti e utilizzati i prodotti di dati. Comprendere questi fattori può aiutare le organizzazioni ad assicurarsi di disporre delle indicazioni e degli strumenti giusti per supportare i consumatori di dati.

Questo documento fa parte di una serie che descrive come implementare un data mesh su Google Cloud. Si presume che tu abbia letto e che tu abbia familiarità con i concetti descritti in Architettura e funzioni in un mesh di dati e Creare un mesh di dati moderno e distribuito con Google Cloud.

La serie è composta dalle seguenti parti:

La progettazione di un livello di consumo dei dati, in particolare il modo in cui i consumatori basati sul dominio dei dati utilizzano i prodotti di dati, dipende dai requisiti dei consumatori di dati. Come prerequisito, si presume che i consumatori abbiano in mente un caso d'uso. Si presume che abbiano identificato i dati di cui hanno bisogno e che possano cercarli nel catalogo centralizzato dei prodotti dati. Se i dati non sono presenti nel catalogo o non sono nello stato preferito (ad esempio, se l'interfaccia non è appropriata o gli SLA non sono sufficienti), il consumatore deve contattare il produttore dei dati.

In alternativa, il consumatore può contattare il centro di eccellenza (COE) per il data mesh per ricevere consigli su quale dominio è il più adatto per produrre il prodotto dato. I consumatori di dati possono anche chiedere come presentare la richiesta. Se la tua organizzazione è di grandi dimensioni, dovrebbe esistere una procedura per effettuare richieste di prodotti di dati in modalità self-service.

I consumatori di dati utilizzano i prodotti di dati tramite le applicazioni che eseguono. Il tipo di informazioni richieste determina la scelta del design dell'applicazione che utilizza i dati. Quando sviluppa il design dell'applicazione, il consumatore di dati identifica anche il proprio utilizzo preferito dei prodotti di dati nell'applicazione. Devono avere la certezza che i dati siano attendibili e affidabili. I consumatori di dati possono quindi stabilire una visualizzazione delle interfacce dei prodotti di dati e degli SLA richiesti dall'applicazione.

Casi d'uso per il consumo di dati

Affinché i consumatori di dati possano creare applicazioni di dati, le origini potrebbero essere uno o più prodotti di dati e, forse, i dati del dominio del consumatore di dati. Come descritto in Creare prodotti di dati in un data mesh, i prodotti di dati analitici possono essere creati da prodotti di dati basati su vari repository di dati fisici.

Sebbene il consumo di dati possa avvenire nello stesso dominio, i pattern di consumo più comuni sono quelli che cercano il prodotto di dati corretto, indipendentemente dal dominio, come origine dell'applicazione. Quando il prodotto di dati corretto esiste in un altro dominio, il pattern di consumo richiede di configurare il meccanismo successivo per l'accesso e l'utilizzo dei dati nei vari domini. Il consumo dei prodotti di dati creati in domini diversi da quello di destinazione è descritto nella sezione Passaggi per il consumo dei dati.

Architettura

Il seguente diagramma mostra uno scenario di esempio in cui i consumatori utilizzano i prodotti di dati tramite una serie di interfacce, tra cui set di dati e API autorizzati.

Scenari di consumo dei dati, descritti nel testo che segue.

Come mostrato nel diagramma precedente, il produttore di dati ha esposto quattro interfacce di prodotti di dati: due set di dati BigQuery autorizzati, un set di dati BigQuery esposto dall'API di lettura di BigQuery Storage e API di accesso ai dati ospitate su Google Kubernetes Engine. Nell'utilizzo dei prodotti di dati, i consumatori di dati utilizzano una serie di applicazioni che eseguono query o accedono direttamente alle risorse di dati all'interno dei prodotti di dati. In questo scenario, i consumatori di dati accedono alle risorse di dati in due modi diversi in base ai loro requisiti specifici di accesso ai dati. Nel primo caso, Looker utilizza BigQuery SQL per eseguire query su un set di dati autorizzato. Nel secondo caso, Dataproc accede direttamente a un set di dati tramite l'API BigQuery ed elabora i dati importati per addestrare un modello di machine learning (ML).

L'utilizzo di un'applicazione di consumo dei dati potrebbe non sempre generare un report o una dashboard di business intelligence (BI). Il consumo di dati di un dominio può anche generare modelli ML che arricchiscono ulteriormente i prodotti di analisi, vengono utilizzati nell'analisi dei dati o fanno parte di processi operativi, ad esempio il rilevamento delle frodi.

Di seguito sono riportati alcuni casi d'uso tipici di consumo dei prodotti di dati:

  • Report e analisi dei dati BI:in questo caso, le applicazioni di dati sono progettate per utilizzare i dati di più prodotti di dati. Ad esempio, i consumatori di dati del team di gestione dei rapporti con i clienti (CRM) devono accedere ai dati di più domini, come vendite, clienti e finanza. L'applicazione CRM sviluppata da questi utenti che utilizzano i dati potrebbe dover eseguire query sia su una visualizzazione autorizzata BigQuery in un dominio sia estrarre i dati da un'API di lettura di Cloud Storage in un altro dominio. Per i consumatori di dati, i fattori di ottimizzazione che influiscono sull'interfaccia di consumo preferita sono i costi di calcolo e l'eventuale elaborazione aggiuntiva dei dati richiesta dopo la query sul prodotto di dati. Nei casi d'uso di BI e analisi dei dati, le viste autorizzate di BigQuery sono probabilmente le più utilizzate.
  • Casi d'uso di data science e addestramento dei modelli: in questo caso, il team che utilizza i dati utilizza i prodotti di dati di altri domini per arricchire il proprio prodotto di dati analitici, ad esempio un modello ML. Utilizzando Dataproc Serverless per Spark, Google Cloud fornisce funzionalità di pre-elaborazione dei dati e di feature engineering per abilitare l'arricchimento dei dati prima di eseguire le attività di ML. Le considerazioni chiave sono la disponibilità di quantità sufficienti di dati di addestramento a un costo ragionevole e la certezza che i dati di addestramento siano appropriati. Per mantenere bassi i costi, le interfacce di consumo preferite sono probabilmente API di lettura diretta. È possibile per un team che utilizza i dati creare un modello ML come prodotto di dati e, a sua volta, diventare un nuovo team che produce dati.
  • Processi dell'operatore: il consumo fa parte del processo operativo nel dominio di consumo dei dati. Ad esempio, un consumatore di dati di un team che si occupa di attività fraudolente potrebbe utilizzare i dati sulle transazioni provenienti da origini dati operative nel dominio del commerciante. Utilizzando un metodo di integrazione dei dati come Change Data Capture, questi dati sulle transazioni vengono intercettati quasi in tempo reale. Puoi quindi utilizzare Pub/Sub per definire un schema per questi dati ed esporre le informazioni come eventi. In questo caso, le interfacce appropriate sarebbero i dati esposti come argomenti Pub/Sub.

Passaggi per il consumo di dati

I produttori di dati documentano il proprio prodotto nel catalogo centrale, incluse le indicazioni su come utilizzare i dati. Per un'organizzazione con più domini, questo approccio alla documentazione crea un'architettura diversa dalla tradizionale pipeline ELT/ETL creata in modo centralizzato, in cui i processori creano output senza i confini dei domini aziendali. I consumatori di dati in un data mesh devono avere un livello di rilevamento e utilizzo ben progettato per creare un ciclo di vita del consumo dei dati. Il livello deve includere quanto segue:

Passaggio 1: scopri i prodotti di dati tramite la ricerca dichiarativa e l'esplorazione delle specifiche dei prodotti di dati: i consumatori di dati sono liberi di cercare qualsiasi prodotto di dati registrato dai produttori di dati nel catalogo centrale. Per tutti i prodotti di dati, il tag del prodotto di dati specifica come effettuare richieste di accesso ai dati e la modalità di utilizzo dei dati dall'interfaccia del prodotto di dati richiesto. I campi dei tag dei prodotti di dati sono disponibili per la ricerca utilizzando un'applicazione di ricerca. Le interfacce dei prodotti di dati implementano gli URI dei dati, il che significa che non è necessario spostare i dati in una zona di consumo separata per fornire servizi ai consumatori. Quando i dati in tempo reale non sono necessari, i consumatori eseguono query sui prodotti di dati e creano report con i risultati generati.

Passaggio 2: esplorazione dei dati tramite accesso interattivo ai dati e prototipazione:i consumatori di dati utilizzano strumenti interattivi come BigQuery Studio e Jupyter Notebook per interpretare ed eseguire esperimenti sui dati al fine di perfezionare le query di cui hanno bisogno per l'utilizzo in produzione. Le query interattive consentono ai consumatori di dati di esplorare nuove dimensioni dei dati e migliorare la correttezza degli approfondimenti generati negli scenari di produzione.

Passaggio 3: utilizzo del prodotto di dati tramite un'applicazione, con accesso e produzione programmatici:

  • Report di BI. Report e dashboard batch e quasi in tempo reale costituiscono il gruppo più comune di casi d'uso di analisi richiesti dai consumatori di dati. I report potrebbero richiedere l'accesso ai prodotti cross-data per facilitare il processo decisionale. Ad esempio, una piattaforma di dati dei clienti richiede di eseguire query programmatiche su ordini e prodotti di dati CRM in modo pianificato. I risultati di questo approccio forniscono agli utenti aziendali che utilizzano i dati una visione olistica del cliente.
  • Modello AI/ML per la previsione in batch e in tempo reale. I data scientist utilizzano principi MLOps comuni per creare e gestire modelli ML che utilizzano prodotti di dati resi disponibili dai team di prodotti di dati. I modelli ML forniscono funzionalità di inferenza in tempo reale per casi d'uso transazionali come il rilevamento di attività fraudolente. Analogamente, con l'analisi esplorativa dei dati, i consumer di dati possono arricchire i dati di origine. Ad esempio, l'analisi esplorativa dei dati sulle vendite e sulle campagne di marketing mostra i segmenti di clienti demografici in cui si prevede che le vendite siano più elevate e, di conseguenza, dove devono essere pubblicate le campagne.

Passaggi successivi