Panoramica: eseguire la migrazione dei data warehouse in BigQuery
Questo documento illustra i concetti generali applicabili a qualsiasi tecnologia di data warehousing e descrive un framework che puoi utilizzare per organizzare e strutturare la migrazione a BigQuery.
Terminologia
Quando parliamo di migrazione del data warehouse, utilizziamo la seguente terminologia:
- Caso d'uso
-
Un caso d'uso è costituito da tutti i set di dati, l'elaborazione dei dati e le interazioni con il sistema e gli utenti necessari per ottenere valore commerciale, ad esempio il monitoraggio dei volumi di vendita di un prodotto nel tempo. Nel data warehousing, il caso d'uso è spesso costituito da:
- Data pipelines che importano dati non elaborati da varie origini dati, ad esempio il database di gestione dei rapporti con i clienti (CRM).
- I dati archiviati nel data warehouse.
- Script e procedure per manipolare, elaborare e analizzare ulteriormente i dati.
- Un'applicazione aziendale che legge o interagisce con i dati.
- Carico di lavoro
-
Un insieme di casi d'uso collegati e con dipendenze condivise. Ad esempio, un caso d'uso potrebbe avere le seguenti relazioni e dipendenze:
- I report sugli acquisti possono essere utilizzati autonomamente e sono utili per comprendere le spese e richiedere sconti.
- I report sulle vendite possono essere utilizzati autonomamente e sono utili per pianificare le campagne di marketing.
- I report Utili e perdite, invece, dipendono sia dagli acquisti che dalle vendite e sono utili per determinare il valore dell'azienda.
- Applicazione aziendale
- Un sistema con cui interagiscono gli utenti finali, ad esempio un report o una dashboard visuale. Un'applicazione aziendale può anche assumere la forma di una pipeline di dati operativi o di un ciclo di feedback. Ad esempio, dopo che le variazioni di prezzo dei prodotti sono state calcolate o previste, una pipeline di dati operativi potrebbe aggiornare i nuovi prezzi dei prodotti in un database transazionale.
- Procedura upstream
- I sistemi di origine e le pipeline di dati che caricano i dati nel data warehouse.
- Processo a valle
- Gli script, le procedure e le applicazioni aziendali utilizzati per elaborare, eseguire query e visualizzare i dati nel data warehouse.
- Migrazione di offload
-
Una strategia di migrazione che mira a far funzionare il caso d'uso per l'utente finale nel nuovo ambiente il più rapidamente possibile o a sfruttare la capacità aggiuntiva disponibile nel nuovo ambiente. I casi d'uso vengono trasferiti
nel seguente modo:
- Copia e sincronizzazione dello schema e dei dati dal data warehouse legacy.
- Migrazione di script, procedure e applicazioni aziendali downstream.
Il trasferimento della migrazione può aumentare la complessità e il lavoro necessario per eseguire la migrazione delle pipeline di dati.
- Migrazione completa
- Un approccio di migrazione simile a una migrazione di offload, ma anziché copiare e sincronizzare lo schema e i dati, configurerai la migrazione in modo da importare i dati direttamente nel nuovo data warehouse su cloud dai sistemi di origine a monte. In altre parole, vengono migrate anche le pipeline di dati richieste per il caso d'uso.
- Data warehouse aziendale (EDW)
- Un data warehouse costituito non solo da un database analitico, ma anche da più procedure e componenti di analisi fondamentali. Sono incluse pipeline di dati, query e applicazioni aziendali necessarie per soddisfare i carichi di lavoro dell'organizzazione.
- Data warehouse su cloud (CDW)
- Un data warehouse con le stesse caratteristiche di un EDW, ma in esecuzione su un servizio completamente gestito nel cloud, in questo caso BigQuery.
- Pipeline di dati
- Un processo che collega i sistemi di dati tramite una serie di funzioni e attività che eseguono vari tipi di trasformazione dei dati. Per maggiori dettagli, consulta Che cos'è una pipeline di dati? di questa serie.
Perché eseguire la migrazione a BigQuery?
Negli ultimi decenni, le organizzazioni hanno padroneggiato la scienza del data warehousing. Hanno applicato sempre più l'analisi descrittiva a grandi quantità di dati archiviati, ottenendo informazioni sulle loro operazioni aziendali principali. La Business Intelligence (BI) convenzionale, incentrata su query, report e Online Analytical Processing, potrebbe aver rappresentato un fattore di differenziazione in passato, determinando il successo o il fallimento di un'azienda, ma non è più sufficiente.
Oggi le organizzazioni non solo devono comprendere gli eventi passati utilizzando l'analisi descrittiva, ma hanno anche bisogno di analisi predittiva, che spesso utilizza il machine learning (ML) per estrarre modelli di dati e fare affermazioni probabilistiche sul futuro. L'obiettivo finale è sviluppare analisi prescrittive che combinano le lezioni del passato con le previsioni sul futuro per guidare automaticamente le azioni in tempo reale.
Le pratiche tradizionali dei data warehouse acquisiscono dati non elaborati da varie origini, spesso sistemi di elaborazione online delle transazioni (OLTP). Quindi, un sottoinsieme di dati viene estratto in batch, trasformato in base a uno schema definito e caricato nel data warehouse. Poiché i data warehouse tradizionali acquisiscono un sottoinsieme di dati in batch e li archiviano in base a schemi rigidi, non sono adatti per gestire analisi in tempo reale o rispondere a query spontanee. Google ha progettato BigQuery in parte in risposta a questi limiti intrinseci.
Le idee innovative sono spesso rallentate dalle dimensioni e dalla complessità dell'organizzazione IT che implementa e gestisce questi data warehouse tradizionali. Per creare un'architettura di data warehouse scalabile, sicura e ad alta disponibilità possono essere necessari anni e investimenti sostanziali. BigQuery offre una tecnologia sofisticata di software as a service (SaaS) che può essere utilizzata per le operazioni di data warehouse serverless. In questo modo, puoi concentrarti sullo sviluppo della tua attività principale, delegando al contempo la manutenzione dell'infrastruttura e lo sviluppo della piattaforma a Google Cloud.
BigQuery offre accesso a archiviazione, elaborazione e analisi dei dati strutturati scalabili, flessibili e convenienti. Quando i volumi di dati crescono in modo esponenziale, queste caratteristiche sono essenziali per i clienti, sia per rendere disponibili le risorse di archiviazione e di elaborazione in base alle esigenze sia per ottenere valore da tali dati. Inoltre, per le organizzazioni che stanno appena iniziando a utilizzare l'analisi dei big data e il machine learning e che vogliono evitare le potenziali complessità dei sistemi di big data on-premise, BigQuery offre un modo di pagare per l'utilizzo per sperimentare con i servizi gestiti.
Con BigQuery puoi trovare risposte a problemi precedentemente insolubili, applicare il machine learning per scoprire pattern di dati emergenti e testare nuove ipotesi. Di conseguenza, hai informazioni tempestive sul rendimento della tua attività, il che ti consente di modificare i processi per ottenere risultati migliori. Inoltre, l'esperienza dell'utente finale è spesso arricchita da approfondimenti pertinenti ricavati dall'analisi dei big data, come spiegheremo più avanti in questa serie.
Che cosa e come eseguire la migrazione: il framework di migrazione
L'esecuzione di una migrazione può essere un'impresa complessa e lunga. Pertanto, consigliamo di seguire un framework per organizzare e strutturare il lavoro di migrazione in fasi:
- Prepara e scopri: preparati alla migrazione con la scoperta dei carichi di lavoro e dei casi d'uso.
- Pianifica: assegna priorità ai casi d'uso, definisci le misure di risultato e pianifica la migrazione.
- Esegui: esegui l'iterazione dei passaggi per la migrazione, dalla valutazione alla convalida.
Prepara e scopri
Nella fase iniziale, l'attenzione è rivolta alla preparazione e alla scoperta. Si tratta di offrire a te e ai tuoi stakeholder un'opportunità anticipata per scoprire i casi d'uso esistenti e sollevare i dubbi iniziali. È importante anche eseguire un'analisi iniziale dei vantaggi previsti. Sono inclusi i miglioramenti delle prestazioni (ad esempio, una maggiore concorrenza) e le riduzioni del costo totale di proprietà (TCO). Questa fase è fondamentale per aiutarti a stabilire il valore della migrazione.
Un data warehouse in genere supporta una vasta gamma di casi d'uso e ha un gran numero di stakeholder, dagli analisti dei dati ai responsabili delle decisioni aziendali. Ti consigliamo di coinvolgere i rappresentanti di questi gruppi per avere una buona conoscenza dei casi d'uso esistenti, del loro rendimento e se gli stakeholder stanno pianificando nuovi casi d'uso.
La procedura della fase di scoperta è costituita dalle seguenti attività:
- Esamina la proposta di valore di BigQuery e confrontala con quella del tuo data warehouse precedente.
- Esegui un'analisi iniziale del TCO.
- Stabilisci quali casi d'uso sono interessati dalla migrazione.
- Modella le caratteristiche dei set di dati e delle pipeline di dati di base che vuoi eseguire la migrazione per identificare le dipendenze.
Per ottenere informazioni sui casi d'uso, puoi sviluppare un questionario per raccogliere informazioni da esperti in materia (SME), utenti finali e stakeholder. Il questionario deve raccogliere le seguenti informazioni:
- Qual è lo scopo del caso d'uso? Qual è il valore dell'attività?
- Quali sono i requisiti non funzionali? Aggiornamento dei dati, utilizzo simultaneo e così via.
- Il caso d'uso fa parte di un workload più grande? Dipende da altri casi di utilizzo?
- Quali set di dati, tabelle e schemi sono alla base del caso d'uso?
- Che cosa sai sulle pipeline di dati che alimentano questi set di dati?
- Quali strumenti di BI, report e dashboard vengono utilizzati al momento?
- Quali sono i requisiti tecnici attuali relativi a esigenze operative, prestazioni, autenticazione e larghezza di banda della rete?
Il seguente diagramma mostra un'architettura precedente di alto livello prima della migrazione. Illustra il catalogo delle origini dati disponibili, delle pipeline di dati legacy, delle pipeline operative e dei loop di feedback legacy, nonché dei report e delle dashboard di BI legacy a cui accedono gli utenti finali.
Piano
La fase di pianificazione consiste nell'utilizzare i dati della fase di preparazione e rilevamento, valutarli e poi utilizzarli per pianificare la migrazione. Questa fase può essere suddivisa nelle seguenti attività:
Catalogare e dare la priorità ai casi d'uso
Ti consigliamo di suddividere il processo di migrazione in iterazioni. Cataloghi i casi d'uso esistenti e nuovi e li assegni una priorità. Per maggiori dettagli, consulta le sezioni Eseguire la migrazione utilizzando un approccio iterativo e Assegnare la priorità ai casi d'uso di questo documento.
Definire le misure del successo
È utile definire misure di successo chiare, come gli indicatori chiave di prestazione (KPI), in vista della migrazione. Le misurazioni ti consentiranno di valutare il successo della migrazione a ogni iterazione. Ciò ti consente di apportare miglioramenti al processo di migrazione nelle iterazioni successive.
Creare una definizione di "completato"
Con le migrazioni complesse, non è necessariamente ovvio quando hai completato la migrazione di un determinato caso d'uso. Pertanto, devi delineare una definizione formale dello stato finale previsto. Questa definizione deve essere sufficientemente generica da poter essere applicata a tutti i casi d'uso di cui vuoi eseguire la migrazione. La definizione deve fungere da insieme di criteri minimi per considerare completata la migrazione del caso d'uso. Questa definizione in genere include checkpoint per assicurarsi che il caso d'uso sia stato integrato, testato e documentato.
Progettare e proporre una proof of concept (POC), uno stato a breve termine e un stato finale ideale
Dopo aver assegnato la priorità ai casi d'uso, puoi iniziare a valutarli durante l'intero periodo di migrazione. Considera la prima migrazione del caso d'uso come una prova di concetto (PoC) per convalidare l'approccio di migrazione iniziale. Considera ciò che è possibile ottenere entro le prime settimane o i primi mesi come stato a breve termine. In che modo i tuoi piani di migrazione influiranno sugli utenti? Il cliente avrà una soluzione ibrida o puoi eseguire prima la migrazione di un intero carico di lavoro per un sottoinsieme di utenti?
Creare stime di tempo e costi
Per garantire il successo di un progetto di migrazione, è importante produrre stime di tempo realistiche. Per farlo, contatta tutte le parti interessate pertinenti per discutere della loro disponibilità e concordare il loro livello di coinvolgimento durante il progetto. In questo modo potrai stimare i costi di manodopera in modo più accurato. Per stimare i costi relativi al consumo previsto delle risorse cloud, consulta Stima dei costi di query e archiviazione e Introduzione al controllo dei costi di BigQuery nella documentazione di BigQuery.
Identifica e coinvolgi un partner per la migrazione
La documentazione di BigQuery descrive molti strumenti e risorse che puoi utilizzare per eseguire la migrazione. Tuttavia, può essere difficile eseguire autonomamente una migrazione di grandi dimensioni e complessa se non hai esperienza in merito o non disponi di tutte le competenze tecniche richieste all'interno della tua organizzazione. Pertanto, ti consigliamo di identificare e coinvolgere un partner per la migrazione fin dall'inizio. Per ulteriori dettagli, consulta i nostri programmi per partner globali e servizi di consulenza.
Esegui la migrazione utilizzando un approccio iterativo
Quando esegui la migrazione di un'operazione di data warehousing di grandi dimensioni al cloud, è buona idea adottare un approccio iterativo. Pertanto, ti consigliamo di eseguire la transizione a BigQuery per fasi. Se dividi l'impegno di migrazione in iterazioni, il processo complessivo diventa più semplice, i rischi si riducono e hai l'opportunità di imparare e migliorare dopo ogni iterazione.
Un'iterazione è costituita da tutto il lavoro necessario per eseguire il offload o la migrazione completa di uno o più casi d'uso correlati in un periodo di tempo limitato. Puoi considerare un'iterazione come un ciclo di sprint nella metodologia agile, composto da una o più user story.
Per praticità e facilità di monitoraggio, ti consigliamo di associare un singolo caso d'uso a una o più storie utente. Ad esempio, considera la seguente storia utente: "In qualità di analista dei prezzi, voglio analizzare le variazioni di prezzo dei prodotti nell'ultimo anno per poter calcolare i prezzi futuri".
Il caso d'uso corrispondente potrebbe essere:
- Importazione dei dati da un database transazionale che memorizza prodotti e prezzi.
- Trasformare i dati in una singola serie temporale per ogni prodotto e inserire eventuali valori mancanti.
- Memorizzare i risultati in una o più tabelle del data warehouse.
- Rendere disponibili i risultati tramite un notebook Python (l'applicazione aziendale).
Il valore commerciale di questo caso d'uso è supportare l'analisi dei prezzi.
Come per la maggior parte dei casi d'uso, questo caso supporterà probabilmente più storie degli utenti.
Un caso d'uso sottoposto a offload sarà probabilmente seguito da un'iterazione successiva per eseguire la migrazione completa del caso d'uso. In caso contrario, potresti avere ancora una dipendenza dal data warehouse precedente esistente, perché i dati vengono copiati da lì. La migrazione completa successiva è la differenza tra lo scaricamento e una migrazione completa che non è stata preceduta da uno scaricamento, in altre parole la migrazione delle pipeline di dati per estrarre, trasformare e caricare i dati nel data warehouse.
Dare la priorità ai casi d'uso
Il punto di inizio e di fine della migrazione dipende dalle esigenze specifiche della tua attività. Decidere l'ordine in cui eseguire la migrazione dei casi d'uso è importante perché il successo iniziale durante una migrazione è fondamentale per continuare il percorso di adozione del cloud. Un errore nelle prime fasi può rappresentare un grave ostacolo per l'intero processo di migrazione. Potresti essere a conoscenza dei vantaggi di Google Cloud e BigQuery, ma l'elaborazione di tutti i set di dati e le pipeline di dati creati o gestiti nel tuo data warehouse precedente per casi d'uso diversi può essere complicata e richiedere molto tempo.
Sebbene non esista una risposta valida per tutti, esistono best practice che puoi utilizzare per valutare i casi d'uso e le applicazioni aziendali on-premise. Questo tipo di pianificazione in anticipo può semplificare la procedura di migrazione e l'intera transizione a BigQuery.
Le sezioni seguenti illustrano possibili approcci per dare la priorità ai casi d'uso.
Approccio: sfrutta le opportunità attuali
Esamina le opportunità attuali che potrebbero aiutarti a massimizzare il ritorno sull'investimento di un caso d'uso specifico. Questo approccio è particolarmente utile se senti la pressione di dover giustificare il valore commerciale della migrazione al cloud. Inoltre, offre l'opportunità di raccogliere ulteriori punti dati per contribuire a valutare il costo totale della migrazione.
Di seguito sono riportate alcune domande di esempio che puoi porre per aiutarti a identificare i casi d'uso da dare la priorità:
- Il caso d'uso è costituito da set di dati o pipeline di dati attualmente limitati dal data warehouse aziendale legacy?
- Il tuo data warehouse aziendale esistente richiede un aggiornamento hardware o prevedi di dover espandere l'hardware? In questo caso, può essere interessante eseguire il offload dei casi d'uso in BigQuery il prima possibile.
L'identificazione di opportunità di migrazione può creare alcuni risultati rapidi che generano benefici tangibili e immediati per gli utenti e l'attività.
Approccio: esegui prima la migrazione dei carichi di lavoro analitici
Esegui la migrazione dei carichi di lavoro di Online Analytical Processing (OLAP) prima di quelli di Online Transaction Processing(OLTP). Un data warehouse è spesso l'unico posto nell'organizzazione in cui hai tutti i dati per creare un'unica visione globale delle operazioni dell'organizzazione. Pertanto, è normale che le organizzazioni dispongano di alcune pipeline di dati che vengono reintrodotte nei sistemi transazionali per aggiornare lo stato o attivare le procedure, ad esempio per acquistare più scorte quando l'inventario di un prodotto è basso. I carichi di lavoro OLTP tendono ad essere più complessi e hanno requisiti operativi e accordi sul livello del servizio (SLA) più stringenti rispetto ai carichi di lavoro OLAP, pertanto tende anche ad essere più facile eseguire prima la migrazione dei carichi di lavoro OLAP.
Approccio: concentrati sull'esperienza utente
Identifica le opportunità per migliorare l'esperienza utente eseguendo la migrazione di set di dati specifici e attivando nuovi tipi di analisi avanzate. Ad esempio, un modo per migliorare l'esperienza utente è utilizzare l'analisi in tempo reale. Puoi creare esperienze utente sofisticate attorno a un flusso di dati in tempo reale quando viene combinato con i dati storici. Ad esempio:
- Un dipendente dell'ufficio di back-office che riceve una notifica sulla sua app mobile relativa allo stock ridotto.
- Un cliente online che potrebbe trarre vantaggio dal sapere che se spende un altro dollaro passerà al livello di premio successivo.
- Un'infermiera che riceve un avviso sui segni vitali di un paziente sul suo smartwatch, il che le consente di adottare la migliore linea di condotta consultando la cronologia delle cure del paziente sul suo tablet.
Puoi anche migliorare l'esperienza utente con analisi predittive e prescrittive. A questo scopo, puoi utilizzare BigQuery ML, Vertex AI AutoML tabular o i modelli preaddestrati di Google per analisi di immagini, analisi video, riconoscimento vocale, linguaggio naturale e traduzione. In alternativa, puoi pubblicare il tuo modello addestrato personalizzato utilizzando Vertex AI per casi d'uso personalizzati in base alle esigenze della tua attività. Ciò potrebbe includere:
- Consigliare un prodotto in base alle tendenze di mercato e al comportamento di acquisto degli utenti.
- Prevedere un ritardo del volo.
- Rilevamento di attività fraudolente.
- Segnalazione di contenuti inappropriati.
- Altre idee innovative che potrebbero differenziare la tua app dalla concorrenza.
Approccio: dai la priorità ai casi d'uso meno rischiosi
Esistono una serie di domande che l'IT può porre per aiutare a valutare quali casi d'uso sono meno rischiosi per la migrazione, il che li rende più interessanti per la migrazione nelle prime fasi della migrazione. Ad esempio:
- Qual è la criticità aziendale di questo caso d'uso?
- Il caso d'uso dipende da un numero elevato di dipendenti o clienti?
- Qual è l'ambiente di destinazione (ad esempio sviluppo o produzione) per il caso d'uso?
- Qual è la comprensione del nostro team IT del caso d'uso?
- Quante dipendenze e integrazioni ha il caso d'uso?
- Il nostro team IT dispone di documentazione adeguata, aggiornata e completa per il caso d'uso?
- Quali sono i requisiti operativi (SLA) per il caso d'uso?
- Quali sono i requisiti di conformità legali o governativi per il caso d'uso?
- Quali sono le sensibilità relative a tempi di riposo e latenza per accedere al set di dati di base?
- Esistono proprietari di linee di business desiderosi e disposti a eseguire la migrazione anticipata del loro caso d'uso?
Esaminare questo elenco di domande può aiutarti a classificare i set di dati e le pipeline di dati dal rischio più basso a quello più elevato. La migrazione degli asset a basso rischio deve essere eseguita prima, mentre quella di quelli a rischio più elevato deve essere eseguita in un secondo momento.
Esegui
Dopo aver raccolto informazioni sui sistemi precedenti e aver creato un backlog di casi d'uso con priorità, puoi raggruppare i casi d'uso in carichi di lavoro e procedere con la migrazione in modo iterativo.
Un'iterazione può essere costituita da un singolo caso d'uso, da alcuni casi d'uso distinti o da un numero di casi d'uso relativi a un singolo carico di lavoro. La scelta di una di queste opzioni per l'iterazione dipende dall'interconnessione dei casi d'uso, dalle eventuali dipendenze condivise e dalle risorse a tua disposizione per svolgere il lavoro.
Una migrazione in genere prevede i seguenti passaggi:
Questi passaggi sono descritti in maggiore dettaglio nelle sezioni seguenti. Potrebbe non essere necessario svolgere tutti questi passaggi in ogni iterazione. Ad esempio, in un'iterazione potresti decidere di concentrarti sulla copia di alcuni dati dal tuo data warehouse precedente a BigQuery. Al contrario, in un'iterazione successiva potresti concentrarti sulla modifica della pipeline di importazione da un'origine dati originale direttamente a BigQuery.
1. Configurazione e governance dei dati
La configurazione è l'attività di base necessaria per consentire l'esecuzione dei casi d'uso su Google Cloud. La configurazione può includere la configurazione dei progetti Google Cloud, della rete, del virtual private cloud (VPC) e della governance dei dati. Inoltre, è necessario acquisire una buona conoscenza della situazione attuale, ovvero di cosa funziona e cosa no. In questo modo, puoi comprendere i requisiti per la migrazione. Puoi utilizzare la funzionalità di valutazione della migrazione di BigQuery per aiutarti in questo passaggio.
La governance dei dati è un solido approccio alla gestione dei dati durante il loro ciclo di vita, dall'acquisizione all'utilizzo e allo smaltimento. Il programma di governance dei dati illustra chiaramente criteri, procedure, responsabilità e controlli relativi alle attività relative ai dati. Questo programma contribuisce a garantire che le informazioni vengano raccolte, manutenute, utilizzate e diffuse in modo da soddisfare sia l'integrità dei dati sia le esigenze di sicurezza della tua organizzazione. Inoltre, aiuta i tuoi dipendenti a scoprire e utilizzare al meglio i dati.
La documentazione sulla governance dei dati ti aiuta a comprendere la governance dei dati e i controlli di cui hai bisogno durante la migrazione del tuo data warehouse on-premise a BigQuery.
2. Eseguire la migrazione di schema e dati
Lo schema del data warehouse definisce la struttura dei dati e le relazioni tra le entità di dati. Lo schema è al centro del design dei dati e influisce su molti processi, sia a monte che a valle.
La documentazione relativa a schema e trasferimento dei dati fornisce informazioni dettagliate su come spostare i dati in BigQuery e suggerimenti per aggiornare lo schema in modo da sfruttare al meglio le funzionalità di BigQuery.
3. Traduci query
Utilizza la traduzione SQL batch per eseguire la migrazione collettiva del codice SQL o la traduzione SQL interattiva per tradurre le query ad hoc.
Alcuni data warehouse precedenti includono estensioni allo standard SQL per attivare la funzionalità del loro prodotto. BigQuery non supporta queste estensioni proprietarie, ma è conforme allo standard ANSI/ISO SQL:2011. Ciò significa che alcune query potrebbero richiedere ancora il refactoring manuale se i traduttori SQL non sono in grado di interpretarle.
4. Esegui la migrazione delle applicazioni aziendali
Le applicazioni aziendali possono assumere molte forme, dalle dashboard alle applicazioni personalizzate alle pipeline di dati operativi che forniscono loop di feedback ai sistemi transazionali.
Per scoprire di più sulle opzioni di analisi quando si utilizza BigQuery, consulta Panoramica dell'analisi di BigQuery. Questo argomento fornisce una panoramica degli strumenti di generazione di report e analisi che puoi utilizzare per ottenere approfondimenti interessanti dai tuoi dati.
La sezione sui loop di feedback nella documentazione della pipeline di dati descrive come utilizzare una pipeline di dati per creare un loop di feedback per il provisioning dei sistemi a monte.
5. Esegui la migrazione delle pipeline di dati
La documentazione relativa alle pipeline di dati illustra procedure, pattern e tecnologie per eseguire la migrazione delle pipeline di dati legacy in Google Cloud. Ti aiuta a capire che cos'è una pipeline di dati, quali procedure e pattern può utilizzare e quali opzioni e tecnologie di migrazione sono disponibili in relazione alla migrazione più ampia del data warehouse.
6. Ottimizzazione del rendimento
BigQuery elabora i dati in modo efficiente sia per i set di dati di piccole dimensioni sia per quelli di grandi dimensioni. Con l'aiuto di BigQuery, i tuoi job di analisi dei dati dovrebbero funzionare bene senza modifiche nel data warehouse di nuova migrazione. Se in determinate circostanze il rendimento delle query non soddisfa le tue aspettative, consulta la sezione Introduzione all'ottimizzazione del rendimento delle query per indicazioni.
7. Verifica e convalida
Al termine di ogni iterazione, verifica che la migrazione dei casi d'uso sia riuscita controllando che:
- La migrazione di dati e schema è stata completata.
- I problemi di governance dei dati sono stati completamente soddisfatti e testati.
- Sono state stabilite procedure e automazioni di manutenzione e monitoraggio.
- Le query sono state tradotte correttamente.
- Le pipeline di dati sottoposte a migrazione funzionano come previsto.
- Le applicazioni aziendali sono configurate correttamente per accedere ai dati e alle query sottoposti a migrazione.
Puoi iniziare a utilizzare lo strumento di convalida dei dati, uno strumento CLI Python open source che confronta i dati degli ambienti di origine e di destinazione per verificare che corrispondano. Supporta più tipi di connessione e funzionalità di convalida a più livelli.
È inoltre buona norma misurare l'impatto della migrazione dei casi d'uso, ad esempio in termini di miglioramento delle prestazioni, riduzione dei costi o introduzione di nuove opportunità tecniche o commerciali. In questo modo, puoi quantificare con maggiore precisione il valore del ritorno sull'investimento e confrontarlo con i tuoi criteri di successo per l'iterazione.
Dopo la convalida dell'iterazione, puoi rilasciare il caso d'uso sottoposto a migrazione in produzione e concedere agli utenti l'accesso ai set di dati e alle applicazioni aziendali sottoposti a migrazione.
Infine, prendi appunti e documenta le lezioni apprese da questa iterazione, in modo da poterle applicare nell'iterazione successiva e accelerare la migrazione.
Riepilogo dell'impegno per la migrazione
Durante la migrazione, esegui sia il data warehouse legacy sia BigQuery, come descritto in questo documento. L'architettura di riferimento nel seguente diagramma evidenzia che entrambi i data warehouse offrono funzionalità e percorsi simili: entrambi possono importare dai sistemi di origine, integrarsi con le applicazioni aziendali e fornire l'accesso utente richiesto. È importante sottolineare che il diagramma evidenzia anche che i dati vengono sincronizzati dal data warehouse a BigQuery. In questo modo, i casi d'uso possono essere trasferiti durante l'intera durata dell'operazione di migrazione.
Supponendo che tu voglia eseguire la migrazione completa dal tuo data warehouse a BigQuery, lo stato finale della migrazione è il seguente:
Passaggi successivi
Scopri di più sui seguenti passaggi della migrazione del data warehouse:
- Valutazione della migrazione
- Panoramica del trasferimento di schemi e dati
- Pipeline di dati
- Traduzione batch di SQL
- Traduzione SQL interattiva
- Sicurezza e governance dei dati
- Strumento di convalida dei dati
Puoi anche scoprire come passare da tecnologie di data warehouse specifiche a BigQuery:
- Migrazione da Netezza
- Eseguire la migrazione da Oracle
- Migrazione da Amazon Redshift
- Migrazione da Teradata
- Eseguire la migrazione da Snowflake