Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Panoramica: eseguire la migrazione dei data warehouse in BigQuery

Questo documento illustra i concetti generali applicabili a qualsiasi tecnologia di data warehousing e descrive un framework che puoi utilizzare per organizzare e strutturare la tua migrazione a BigQuery.

Terminologia

Quando parliamo di migrazione del data warehouse, utilizziamo la seguente terminologia:

Caso d'uso
Un caso d'uso è costituito da tutti i set di dati, dall'elaborazione dei dati e dalle interazioni di sistema e utente richieste per raggiungere il valore aziendale, ad esempio il monitoraggio dei volumi di vendita di un prodotto nel tempo. Nel data warehousing, il caso d'uso è spesso costituito da:
  • Pipeline di dati che importano dati non elaborati da varie origini dati, come il database di gestione dei rapporti con i clienti (CRM).
  • I dati archiviati nel data warehouse.
  • Script e procedure per manipolare ed elaborare ulteriormente i dati e analizzarli.
  • Un'applicazione aziendale che legge o interagisce con i dati.
Carico di lavoro
Un insieme di casi d'uso collegati con dipendenze condivise. Ad esempio, un caso d'uso potrebbe avere le seguenti relazioni e dipendenze:
  • I report sugli acquisti sono autonomi e sono utili per comprendere gli importi spesi e richiedere sconti.
  • I report sulle vendite possono essere autonomi e sono utili per pianificare le campagne di marketing.
  • I rapporti sui profitti e sulle perdite, tuttavia, dipendono sia dagli acquisti sia dalle vendite ed è utile per determinare il valore dell'azienda.
Applicazione aziendale
Un sistema con cui gli utenti finali interagiscono, ad esempio un report visivo o una dashboard. Un'applicazione aziendale può anche assumere la forma di una pipeline di dati operativi o di un loop di feedback. Ad esempio, dopo aver calcolato o previsto le variazioni dei prezzi dei prodotti, una pipeline di dati operativi potrebbe aggiornare i nuovi prezzi dei prodotti in un database transazionale.
Processo a monte
I sistemi di origine e le pipeline di dati che caricano i dati nel data warehouse.
Processo downstream
Script, procedure e applicazioni aziendali utilizzati per elaborare, eseguire query e visualizzare i dati nel data warehouse.
Offload della migrazione
Una strategia di migrazione che mira a far funzionare il caso d'uso per l'utente finale nel nuovo ambiente il più rapidamente possibile o a sfruttare la capacità aggiuntiva disponibile nel nuovo ambiente. I casi d'uso sono deprecati:
  • Copia e poi sincronizzazione dello schema e dei dati dal data warehouse legacy.
  • Migrazione di script, procedure e applicazioni aziendali downstream.

L'offload delle migrazioni può aumentare la complessità e il lavoro necessari per eseguire la migrazione delle pipeline di dati.

Migrazione completa
Un approccio di migrazione simile a una migrazione offload; invece di copiare e poi sincronizzare lo schema e i dati, configura la migrazione per importare i dati direttamente nel nuovo data warehouse su cloud dai sistemi di origine a monte. In altre parole, viene eseguita la migrazione delle pipeline di dati richieste per il caso d'uso.
Data warehouse aziendale (EDW)
Un data warehouse che consiste non solo in un database analitico, ma anche in più componenti e procedure di analisi critici. Queste includono pipeline di dati, query e applicazioni aziendali necessarie per soddisfare i carichi di lavoro dell'organizzazione.
Data warehouse su cloud (CDW)
Un data warehouse che ha le stesse caratteristiche di un EDW, ma viene eseguito su un servizio completamente gestito nel cloud, in questo caso BigQuery.
Pipeline dati
Un processo che collega i sistemi di dati attraverso una serie di funzioni e attività che eseguono vari tipi di trasformazione di dati. Per maggiori dettagli, consulta Che cos'è una pipeline di dati? di questa serie.

Perché eseguire la migrazione a BigQuery?

Negli ultimi decenni, le organizzazioni hanno imparato a conoscere la scienza del data warehousing. Ha applicato sempre più dati descrittivi a grandi quantità di dati archiviati, acquisendo insight sulle operazioni aziendali principali. La Convenzione di business intelligence (BI), incentrata sull'esecuzione di query, sui rapporti e sull'elaborazione analitica online, potrebbe aver svolto un fattore di differenziazione in passato per la creazione o il malfunzionamento di un'azienda, ma ora non è più sufficiente.

Oggi, le organizzazioni non devono solo comprendere gli eventi passati usando analisi descrittive, ma hanno bisogno anche di analisi predittiva, che spesso usa il machine learning (ML) per estrarre pattern di dati e fare dichiarazioni probabilistiche sul futuro. L'obiettivo finale è quello di sviluppare analisi prescrittive che combinino le lezioni del passato con previsioni sul futuro per guidare automaticamente le azioni in tempo reale.

Le pratiche di data warehouse tradizionali acquisiscono dati non elaborati provenienti da varie origini, spesso chiamati sistemi di elaborazione delle transazioni online (OLTP). Successivamente, un sottoinsieme di dati viene estratto in batch, trasformati in base a uno schema definito e caricati nel data warehouse. Poiché i tradizionali datastore acquisiscono un sottoinsieme di dati in batch e archiviano dati basati su schemi rigidi, pertanto non sono adatti alla gestione di analisi in tempo reale o alla risposta a query spontanee. Google ha progettato BigQuery in parte in risposta a queste limitazioni intrinseche.

Le idee innovative sono spesso rallentate dalle dimensioni e dalla complessità dell'organizzazione IT che implementa e gestisce questi datastore tradizionali. Per creare un'architettura di data warehouse scalabile, a disponibilità elevata e sicura, possono essere necessari anni e investimenti significativi. BigQuery offre una tecnologia sofisticata SaaS (Software as a Service) che può essere utilizzata per le operazioni data warehouse serverless. In questo modo puoi concentrarti sulla promozione della tua attività principale, delegando la manutenzione dell'infrastruttura e lo sviluppo della piattaforma a Google Cloud.

BigQuery offre accesso a archiviazione, elaborazione e analisi dei dati strutturati più scalabili, flessibili ed economicamente convenienti. Queste caratteristiche sono essenziali quando i volumi di dati crescono in modo esponenziale, per rendere disponibili le risorse di archiviazione ed elaborazione necessarie e per trarre valore da questi dati. Inoltre, per le organizzazioni che hanno appena iniziato con l'analisi dei big data e il machine learning e che vogliono evitare le potenziali complessità dei sistemi di big data on-premise, BigQuery offre un metodo di pagamento a consumo per testare i servizi gestiti.

Con BigQuery puoi trovare risposte a problemi che prima erano inevitabili, applicare il machine learning per scoprire i pattern di dati emergenti e testare nuove ipotesi. Di conseguenza, ottieni informazioni tempestive sul rendimento della tua attività, il che ti consente di modificare i processi per ottenere risultati migliori. Inoltre, l'esperienza dell'utente finale è spesso arricchita con insight pertinenti ricavati dall'analisi dei big data, come spiegheremo più avanti in questa serie.

Cosa e come eseguire la migrazione: il framework di migrazione

Intraprendere una migrazione può essere un'operazione complessa e lunga. Pertanto, ti consigliamo di rispettare un framework per organizzare e strutturare il lavoro di migrazione in più fasi:

  1. Preparati e scopri: prepara la tua migrazione con la scoperta del carico di lavoro e del caso d'uso.
  2. Pianificare: dare priorità ai casi d'uso, definire misure di successo e pianificare la migrazione.
  3. Esegui: ripeti i passaggi della migrazione, dalla valutazione alla convalida.

Preparati e scopri

Nella fase iniziale, l'attenzione è focalizzata sulla preparazione e sulla scoperta. Si tratta di offrire a te e agli stakeholder un'opportunità anticipata per scoprire i casi d'uso esistenti e sollevare le preoccupazioni iniziali. Inoltre, è importante condurre un'analisi iniziale sui vantaggi previsti. Questi includono aumenti di prestazioni (ad esempio, contemporaneità migliorata) e riduzioni del costo totale di proprietà (TCO). Questa fase è fondamentale per aiutarti a stabilire il valore della migrazione.

Un data warehouse generalmente supporta una vasta gamma di casi d'uso e ha un numero elevato di stakeholder, dagli analisti dei dati ai responsabili delle decisioni aziendali. Ti consigliamo di coinvolgere i rappresentanti di questi gruppi per comprendere meglio quali sono i casi d'uso esistenti, se questi hanno un buon rendimento e se le parti interessate stanno pianificando nuovi casi d'uso.

Il processo della fase di scoperta consiste nelle seguenti attività:

  1. Esamina la proposta di valore di BigQuery e confrontala con quella del tuo data warehouse precedente.
  2. Eseguire un'analisi iniziale del TCO.
  3. Stabilisci quali casi d'uso sono interessati dalla migrazione.
  4. Configura le caratteristiche dei set di dati e delle pipeline di dati sottostanti di cui vuoi eseguire la migrazione per identificare le dipendenze.

Per ottenere insight sui casi d'uso, puoi sviluppare un questionario per raccogliere informazioni dagli esperti in materia, dagli utenti finali e dagli stakeholder. Il questionario deve raccogliere le seguenti informazioni:

  • Qual è l'obiettivo del caso d'uso? Qual è il valore dell'attività?
  • Quali sono i requisiti non funzionali? Aggiornamento dei dati, utilizzo simultaneo e così via.
  • Il caso d'uso fa parte di un carico di lavoro più ampio? Dipende da altri casi d'uso?
  • Quali set di dati, tabelle e schemi sono alla base del caso d'uso?
  • Cosa sai sulle pipeline di dati che alimentano quei set di dati?
  • Quali strumenti BI, report e dashboard sono attualmente utilizzati?
  • Quali sono i requisiti tecnici attuali relativi a esigenze operative, prestazioni, autenticazione e larghezza di banda di rete?

Il seguente diagramma mostra un'architettura legacy ad alto livello prima della migrazione. Illustra il catalogo di origini dati disponibili, pipeline di dati legacy, pipeline operative legacy e loop di feedback, nonché report e dashboard di BI legacy a cui i tuoi utenti finali accedono.

Data warehouse legacy che mostra le origini dati (vendite, marketing, produzione, budget e così via) inserite nel data warehouse. I report e le dashboard di BI sono processi a valle.

Pianificazione

La fase di pianificazione consiste nel prendere l'input dalla fase di preparazione e scoperta, valutarlo e utilizzarlo per pianificare la migrazione. Questa fase può essere suddivisa nelle seguenti attività:

  1. Categorizzare e dare priorità a casi d'uso

    Ti consigliamo di suddividere il processo di migrazione in iterazioni. Puoi catalogare i casi d'uso nuovi ed esistenti e assegnare loro una priorità. Per i dettagli, consulta le sezioni Eseguire la migrazione utilizzando un approccio iterativo e Assegnare una priorità ai casi d'uso di questo documento.

  2. Definire misure di successo

    È utile definire misure chiare di successo, come gli indicatori chiave di prestazione (KPI) prima della migrazione. Le tue misure ti consentiranno di valutare il successo della migrazione a ogni iterazione. Questo a sua volta consente di migliorare il processo di migrazione in versioni successive.

  3. Crea una definizione di "done"

    Con le migrazioni complesse, non è necessariamente evidente che tu abbia completato la migrazione di un determinato caso d'uso. Pertanto, devi definire una definizione formale dello stato finale previsto. Questa definizione dovrebbe essere abbastanza generica da poter essere applicata a tutti i casi d'uso di cui vuoi eseguire la migrazione. La definizione dovrebbe fungere da insieme di criteri minimi affinché tu possa considerare il caso d'uso di cui eseguire la migrazione completa. In genere questa definizione include punti di controllo per garantire che il caso d'uso sia stato integrato, testato e documentato.

  4. Progettare e proporre una proof of concept (POC), uno stato a breve termine e uno stato finale ideale

    Dopo aver assegnato la priorità ai tuoi casi d'uso, puoi iniziare a pensare a tutti gli scenari durante l'intero periodo della migrazione. Considera la prima migrazione di un caso d'uso come proof of concept (PoC) per convalidare l'approccio iniziale alla migrazione. Valuta le possibilità che potresti ottenere nelle prime settimane o mesi come stato a breve termine. Quale sarà l'impatto dei piani di migrazione sui tuoi utenti? Averanno una soluzione ibrida o è possibile eseguire la migrazione di un intero carico di lavoro per un sottoinsieme di utenti?

  5. Creare stime di tempi e costi

    Per garantire il successo di un progetto di migrazione, è importante produrre stime realistiche del tempo. Per raggiungere questo obiettivo, coinvolgi tutti gli stakeholder interessati per discutere della loro disponibilità e concorda sul loro livello di coinvolgimento nel corso del progetto. Questo ti aiuterà a stimare i costi di manodopera in modo più accurato. Per stimare i costi relativi al consumo previsto di risorse cloud, consulta la sezione Stima dei costi di archiviazione e query e Introduzione al controllo dei costi di BigQuery nella documentazione di BigQuery.

  6. Identificare e coinvolgere un partner di migrazione

    La documentazione di BigQuery descrive molti strumenti e risorse che puoi utilizzare per eseguire la migrazione. Tuttavia, può essere difficile eseguire una migrazione di grandi dimensioni e complessa da solo se non hai esperienza o non hai tutte le competenze tecniche necessarie all'interno dell'organizzazione. Pertanto, ti consigliamo fin dall'inizio di identificare e coinvolgere un partner di migrazione. Per ulteriori dettagli, consulta i programmi dei partner globali e dei servizi di consulenza.

Eseguire la migrazione utilizzando un approccio iterativo

Quando si esegue la migrazione di una grande operazione di data warehousing al cloud, è una buona idea adottare un approccio iterativo. Pertanto, ti consigliamo di eseguire la transizione a BigQuery in iterazioni. Suddividere l'impegno di migrazione in iterazioni semplifica il processo generale, riduce i rischi e offre opportunità di apprendimento e di miglioramento dopo ogni iterazione.

Un'iterazione è composta da tutto il lavoro necessario per scaricare o eseguire la migrazione completa di uno o più casi d'uso correlati in un periodo di tempo limitato. Puoi pensare a un'iterazione come a un ciclo sprint nella metodologia agile, che consiste in una o più Storie utente.

Per comodità e facilità di monitoraggio, puoi associare un caso d'uso individuale a una o più storie utente. Ad esempio, considera la seguente storia utente: "Come analista dei prezzi, voglio analizzare le variazioni dei prezzi dei prodotti nell'ultimo anno per poter calcolare i prezzi futuri."

Il caso d'uso corrispondente potrebbe essere:

  • Importazione dei dati da un database transazionale in cui sono archiviati prodotti e prezzi.
  • Trasformare i dati in una singola serie temporale per ogni prodotto e implementare eventuali valori mancanti.
  • L'archiviazione dei risultati in una o più tabelle nel data warehouse.
  • Rendere i risultati disponibili tramite un blocco note Python (l'applicazione aziendale).

Il valore aziendale di questo caso d'uso è supportare l'analisi dei prezzi.

Come per la maggior parte dei casi d'uso, questo caso d'uso probabilmente supporta più storie utente.

Un caso d'uso offload sarà probabilmente seguito da un'iterazione successiva per eseguire la migrazione completa del caso d'uso. In caso contrario, potresti continuare a dipendere dal data warehouse legacy esistente, perché i dati vengono copiati da lì. La successiva migrazione completa è il delta tra l'offload e una migrazione completa che non è stato preceduto da un offload, ovvero la migrazione delle pipeline di dati per estrarre, trasformare e caricare i dati nel datastore.

Assegnare priorità ai casi d'uso

Il punto di inizio e di fine della migrazione dipende dalle tue esigenze aziendali specifiche. Decidere l'ordine in cui eseguire la migrazione dei casi d'uso è importante perché il successo iniziale durante una migrazione è fondamentale per continuare nel percorso di adozione del cloud. Riscontrare errori in una fase iniziale può comportare un grave calo degli sforzi di migrazione complessivi. Potresti avere già i vantaggi di Google Cloud e BigQuery, ma elaborare tutti i set di dati e le pipeline di dati che sono stati creati o gestiti nel tuo data warehouse legacy per diversi casi d'uso può essere complicato e richiedere molto tempo.

Anche se non esiste una risposta che vada bene per tutti, ci sono best practice che puoi utilizzare mentre valuti i tuoi casi d'uso on-premise e le tue applicazioni aziendali. Questo tipo di pianificazione preliminare può semplificare il processo di migrazione e semplificare la transizione a BigQuery.

Le seguenti sezioni esplorano i possibili approcci per stabilire la priorità dei casi d'uso.

Approccio: sfrutta le opportunità attuali

Analizza le opportunità attuali che potrebbero aiutarti a massimizzare il ritorno sull'investimento di un caso d'uso specifico. Questo approccio è particolarmente utile se sei sotto pressione per giustificare il valore aziendale della migrazione al cloud. e offre l'opportunità di raccogliere ulteriori punti dati per valutare il costo totale della migrazione.

Ecco alcuni esempi di domande da fare per aiutarti a identificare i casi d'uso a cui dare la priorità:

  • Il caso d'uso consiste in set di dati o pipeline di dati attualmente limitati dal data warehouse aziendale legacy?
  • Il tuo data warehouse aziendale esistente richiede un aggiornamento dell'hardware o prevedi di dover espandere l'hardware? In questo caso, può essere interessante alleggerire i casi d'uso in BigQuery prima che in seguito.

Identificare opportunità per eseguire la migrazione può comportare risultati rapidi che offrono vantaggi tangibili e immediati per gli utenti e l'azienda.

Approccio: esegui prima la migrazione dei carichi di lavoro di analisi

Esegui il caricamento dei carichi di lavoro di elaborazione analitica online (OLAP) prima dei carichi di lavoro di elaborazione delle transazioni online (OLTP). Un data warehouse è spesso l'unico posto nell'organizzazione in cui disponi di tutti i dati per creare una singola visualizzazione globale delle operazioni dell'organizzazione. Pertanto, è comune per le organizzazioni disporre di alcune pipeline di dati che recuperano i sistemi transazionali per aggiornare lo stato o i processi di trigger, ad esempio per acquistare più scorte quando l'inventario di un prodotto è basso. I carichi di lavoro OLTP tendono a essere più complessi e hanno requisiti operativi e accordi sul livello del servizio (SLA) più rigorosi rispetto ai carichi di lavoro OLAP, pertanto tendono anche a eseguire prima la migrazione dei carichi di lavoro OLAP.

Approccio: concentrati sull'esperienza utente

Identifica le opportunità per migliorare l'esperienza utente eseguendo la migrazione di set di dati specifici e attivando nuovi tipi di analisi avanzate. Ad esempio, un modo per migliorare l'esperienza utente è con l'analisi in tempo reale. Puoi creare esperienze utente sofisticate intorno a un flusso di dati in tempo reale quando sono uniti ai dati storici. Ad esempio:

  • Un dipendente di backoffice che ha avvisato sulla sua app per dispositivi mobili di non avere molte scorte.
  • Un cliente online che potrebbe trarre vantaggio dal fatto che spendere un altro dollaro lo schiererebbe al livello di premio successivo.
  • Un'infermiera che avvisa del paziente i sintomi vitali del suo smartwatch, consentendogli di intraprendere la migliore linea d'azione estraendo la cronologia del trattamento del paziente sul suo tablet.

Puoi anche migliorare l'esperienza utente con analisi predittive e prescrittive. Per questo, puoi utilizzare BigQuery ML, tabelle AutoML di AutoML AI o i modelli preaddestrati di Google per analisi delle immagini, analisi video, riconoscimento vocale, linguaggio naturale e traduzione. Oppure puoi pubblicare il tuo modello con addestramento personalizzato utilizzando Vertex AI per casi d'uso personalizzati in base alle tue esigenze aziendali. Potrebbero essere inclusi i seguenti:

  • Consigliare un prodotto in base alle tendenze del mercato e al comportamento di acquisto degli utenti.
  • Previsione di un ritardo del volo.
  • Rilevamento di attività fraudolente.
  • Segnalare contenuti inappropriati.
  • Altre idee innovative che potrebbero differenziare la tua app dalla concorrenza.
Approccio: assegna la priorità ai casi di utilizzo minimi

Ci sono diverse domande che il team IT può fare per valutare quali casi d'uso sono meno suscettibili di eseguire la migrazione, il che li rende i più allettanti nelle prime fasi. Ad esempio:

  • Qual è la criticità aziendale di questo caso d'uso?
  • Un numero elevato di dipendenti o clienti dipende dal caso d'uso?
  • Qual è l'ambiente di destinazione (ad esempio, sviluppo o produzione) per il caso d'uso?
  • Qual è la comprensione del caso d'uso del nostro team IT?
  • Quante dipendenze e integrazioni ha il caso d'uso?
  • Il nostro team IT dispone di una documentazione adeguata, aggiornata e completa per il caso d'uso?
  • Quali sono i requisiti operativi (SLA) per il caso d'uso?
  • Quali sono i requisiti di conformità legali o governativi per il caso d'uso?
  • Quali sono i tempi di inattività e latenza per l'accesso al set di dati sottostante?
  • Ci sono proprietari di linee di business che sono entusiasti e disposti a eseguire la migrazione del loro caso d'uso in anticipo?

Analizzare questo elenco di domande può aiutarti a classificare i set di dati e le pipeline di dati dal rischio più basso a quello più alto. La migrazione degli asset a basso rischio dovrebbe essere eseguita per prima, mentre quelli a rischio più elevato dovrebbero venire in un secondo momento.

Esegui

Dopo aver raccolto informazioni sui tuoi sistemi legacy e creato un backlog di priorità per i casi d'uso, puoi raggruppare i casi d'uso in carichi di lavoro e procedere con la migrazione in iterazioni.

Un'iterazione può essere composta da un singolo caso d'uso, da alcuni casi d'uso distinti o da un numero di casi d'uso relativi a un singolo carico di lavoro. L'opzione che scegli per l'iterazione dipende dall'interconnessione dei casi d'uso, dalle eventuali dipendenze condivise e dalle risorse disponibili per eseguire il lavoro.

In genere una migrazione contiene i seguenti passaggi:

Processo di migrazione in sette passaggi.

Questi passaggi sono descritti più dettagliatamente nelle sezioni seguenti. Potrebbe non essere necessario eseguire tutti questi passaggi in ogni iterazione. Ad esempio, in un'iterazione potresti decidere di concentrarti sulla copia di alcuni dati dal tuo data warehouse legacy a BigQuery. Al contrario, in un'iterazione successiva potresti concentrarti sulla modifica della pipeline di importazione da un'origine dati originale direttamente a BigQuery.

1. Configurazione e governance dei dati

La configurazione è il lavoro di base richiesto per consentire l'esecuzione dei casi d'uso su Google Cloud. La configurazione può includere progetti dei tuoi progetti Google Cloud, rete, cloud privato virtuale (VPC) e governance dei dati. e dovrai comprendere bene dove ti trovi oggi: cosa funziona e cosa no. Questo ti aiuta a comprendere i requisiti per il lavoro di migrazione. Per aiutarti con questo passaggio, puoi utilizzare la funzionalità di valutazione della migrazione di BigQuery.

La governance dei dati è un approccio fondamentale per gestire i dati durante il loro ciclo di vita, dall'acquisizione all'uso, fino allo smaltimento. Il tuo programma di governance dei dati definisce chiaramente norme, procedure, responsabilità e controlli relativi alle attività relative ai dati. Questo programma garantisce che le informazioni vengano raccolte, gestite, utilizzate e diffuse in modo da soddisfare entrambe le esigenze di sicurezza e integrità dei dati della tua organizzazione. Inoltre, aiuta i tuoi dipendenti a scoprire e utilizzare i dati al massimo delle loro potenzialità.

La documentazione sulla governance dei dati ti aiuta a comprendere la governance dei dati e i controlli di cui hai bisogno quando esegui la migrazione del tuo data warehouse on-premise in BigQuery.

2. Esegui la migrazione di schema e dati

Lo schema di data warehouse definisce il modo in cui sono strutturati i dati e definisce le relazioni tra le entità di dati. Lo schema è alla base della progettazione dei dati e influenza molti processi, sia a monte che a valle.

La documentazione di schema e trasferimento di dati fornisce informazioni complete su come puoi spostare i tuoi dati in BigQuery e suggerimenti per aggiornare il tuo schema al fine di sfruttare appieno le funzionalità di BigQuery.

3. Query di traduzione

Utilizza la traduzione SQL in batch per eseguire la migrazione collettiva del codice SQL oppure la traduzione SQL interattiva per tradurre le query ad hoc.

Alcuni data warehouse legacy includono estensioni allo standard SQL per abilitare la funzionalità del loro prodotto. BigQuery non supporta queste estensioni di proprietà, ma è conforme allo standard ANSI/ISO SQL:2011. Ciò significa che alcune query potrebbero comunque richiedere il refactoring manuale se i traduttori SQL non possono interpretarle.

4. Eseguire la migrazione delle applicazioni aziendali

Le applicazioni aziendali possono assumere molte forme, dalle dashboard alle applicazioni personalizzate, alle pipeline di dati operativi che forniscono loop di feedback ai sistemi transazionali.

Per scoprire di più sulle opzioni di analisi con BigQuery, consulta la Panoramica di Analytics per BigQuery. Questo argomento fornisce una panoramica degli strumenti di generazione dei report e dell'analisi che puoi utilizzare per ottenere informazioni accattivanti dai tuoi dati.

Nella sezione sui loop di feedback, nella documentazione sulla pipeline di dati, viene descritto come utilizzare una pipeline di dati per creare un loop di feedback per il provisioning dei sistemi a monte.

5. Esegui la migrazione delle pipeline di dati

La documentazione delle pipeline di dati presenta procedure, pattern e tecnologie per eseguire la migrazione delle pipeline di dati legacy in Google Cloud. Ti aiuta a comprendere che cos'è una pipeline di dati, quali procedure e pattern può utilizzare e quali opzioni e tecnologie di migrazione sono disponibili in relazione alla migrazione del data warehouse più ampio.

6. Ottimizzazione del rendimento

BigQuery elabora i dati in modo efficiente sia per set di dati di piccole e grandi dimensioni. Con l'aiuto di BigQuery, i tuoi job di analisi dei dati dovrebbero funzionare correttamente senza modifiche nel data warehouse di cui hai appena eseguito la migrazione. Se ritieni che in determinate circostanze le prestazioni delle query non corrispondano alle tue aspettative, consulta la sezione Introduzione all'ottimizzazione delle prestazioni delle query per avere indicazioni.

7. Verifica e convalida

Al termine di ogni iterazione, verifica che la migrazione del caso d'uso sia andata a buon fine verificando che:

  • La migrazione dei dati e dello schema è stata completata.
  • I problemi di governance dei dati sono stati completamente soddisfatti e testati.
  • Sono state stabilite procedure di manutenzione e monitoraggio e automazione.
  • Le query sono state tradotte correttamente.
  • Le pipeline di dati migrate funzionano come previsto.
  • Le applicazioni aziendali sono configurate correttamente per accedere alle query e ai dati sottoposti a migrazione.

Puoi iniziare a utilizzare lo strumento di convalida dei dati, uno strumento open source dell'interfaccia a riga di comando di Python che confronta i dati degli ambienti di origine e di destinazione per garantire la corrispondenza. Supporta più tipi di connessione insieme a funzionalità di convalida multilivello.

È anche una buona idea misurare l'impatto della migrazione dei casi d'uso, ad esempio in termini di miglioramento delle prestazioni, riduzione dei costi o abilitazione di nuove opportunità tecniche o aziendali. Quindi puoi quantificare con maggiore precisione il valore del ritorno sull'investimento e confrontare il valore con i criteri di successo per l'iterazione.

Dopo la convalida dell'iterazione, puoi rilasciare il caso d'uso migrato in produzione e concedere agli utenti l'accesso ai set di dati e alle applicazioni aziendali di cui è stata eseguita la migrazione.

Infine, prendi appunti e documenta le lezioni apprese da questa iterazione, in modo da poter applicare le lezioni nell'iterazione successiva e accelerare la migrazione.

Riepilogare lo sforzo di migrazione

Durante la migrazione, esegui sia il data warehouse legacy che BigQuery, come descritto in questo documento. L'architettura di riferimento nel diagramma seguente evidenzia che entrambi i data warehouse offrono funzionalità e percorsi simili: entrambi possono essere importati dai sistemi di origine, integrarsi con le applicazioni aziendali e fornire l'accesso utente richiesto. Inoltre, è importante sottolineare che il diagramma evidenzia che i dati vengono sincronizzati dal tuo data warehouse a BigQuery. Ciò consente di scaricare i casi d'uso per l'intera durata dell'impegno di migrazione.

Riepilogo del processo di migrazione.

Supponiamo che il tuo intento sia di eseguire una migrazione completa dal data warehouse a BigQuery. Lo stato finale della migrazione è il seguente:

Stato finale della migrazione, che mostra varie origini dati che si inseriscono in BigQuery, che a sua volta è l'origine per l'analisi dei dati.

Passaggi successivi

Scopri di più sui seguenti passaggi nella migrazione del data warehouse:

Puoi anche passare al passaggio da tecnologie di data warehouse specifiche a BigQuery: