Panoramica: eseguire la migrazione dei data warehouse in BigQuery
Questo documento illustra i concetti generali applicabili a qualsiasi tecnologia di data warehouse e descrive un framework che puoi utilizzare per organizzare e strutturare la migrazione a BigQuery.
Terminologia
Quando parliamo di migrazione del data warehouse, utilizziamo la seguente terminologia:
- Caso d'uso
-
Un caso d'uso è costituito da tutte le
i set di dati, il trattamento dati e le
interazioni tra utenti e sistema,
per ottenere valore aziendale, ad esempio monitorando i volumi di vendita di un prodotto
nel tempo. Nel data warehousing, il caso d'uso è spesso costituito da:
- Pipeline di dati che importano dati non elaborati da varie origini dati, ad esempio il database di gestione dei rapporti con i clienti (CRM).
- I dati archiviati nel data warehouse.
- Script e procedure per manipolare, elaborare e analizzare ulteriormente i dati.
- Un'applicazione aziendale che legge o interagisce con i dati.
- Carico di lavoro
-
Un insieme di casi d'uso collegati e con dipendenze condivise. Per
Ad esempio, un caso d'uso potrebbe avere le seguenti relazioni e dipendenze:
- I report sugli acquisti possono essere utilizzati autonomamente e sono utili per comprendere le spese e richiedere sconti.
- I report sulle vendite possono essere utilizzati autonomamente e sono utili per pianificare le campagne di marketing.
- La registrazione dei profitti e delle perdite, tuttavia, dipende sia dagli acquisti che vendite ed è utile per determinarne il valore.
- Applicazione aziendale
- Un sistema con cui interagiscono gli utenti finali, ad esempio un report o una dashboard visuale. Un'applicazione aziendale può anche assumere la forma di una pipeline di dati operativi o di un ciclo di feedback. Ad esempio, dopo che le variazioni di prezzo dei prodotti sono state calcolate o previste, una pipeline di dati operativi potrebbe aggiornare i nuovi prezzi dei prodotti in un database transazionale.
- Procedura upstream
- I sistemi di origine e le pipeline di dati che caricano i dati nel data warehouse.
- Processo a valle
- Gli script, le procedure e le applicazioni aziendali utilizzati per elaborare, eseguire query e visualizzare i dati nel data warehouse.
- Migrazione di offload
-
Una strategia di migrazione che mira a far funzionare il caso d'uso per l'utente finale nel nuovo ambiente il più rapidamente possibile o a sfruttare la capacità aggiuntiva disponibile nel nuovo ambiente. I casi d'uso vengono trasferiti
nel seguente modo:
- Copia e poi sincronizza lo schema e i dati di quelli legacy warehouse.
- Migrazione di script, procedure e business downstream diverse applicazioni.
L'offload della migrazione può aumentare la complessità e il lavoro necessario durante la migrazione delle pipeline di dati.
- Migrazione completa
- Un approccio alla migrazione simile a una migrazione con offload, ma invece di copiare e sincronizzare lo schema e i dati, configurare la migrazione per importare i dati direttamente nei nuovi dati nel cloud dai sistemi di origine upstream. In altre parole, i dati viene eseguita la migrazione anche delle pipeline richieste per il caso d'uso.
- Data warehouse aziendale (EDW)
- Un data warehouse composto non solo da un database analitico, diverse procedure e componenti analitici critici. Sono incluse pipeline di dati, query e applicazioni aziendali necessarie per soddisfare i carichi di lavoro dell'organizzazione.
- Data warehouse su cloud (CDW)
- Un data warehouse che ha le stesse caratteristiche di un EDW, ma viene eseguito su completamente gestito nel cloud, in questo caso in BigQuery.
- Pipeline di dati
- Un processo che collega i sistemi di dati tramite una serie di funzioni e attività che eseguono vari tipi di trasformazione dei dati. Per maggiori dettagli, consulta Che cos'è una pipeline di dati? di questa serie.
Perché eseguire la migrazione a BigQuery?
Negli ultimi decenni, le organizzazioni hanno padroneggiato la scienza del data warehousing. Hanno applicato sempre più analisi descrittive alle di grandi quantità di dati archiviati, ottenendo insight sulle loro operazioni aziendali principali. Business intelligence convenzionale (BI), che si concentra su query, report, e Elaborazione analitica online, potrebbe essere stato un fattore di differenziazione in passato, un'azienda, ma non è più sufficiente.
Oggi, le organizzazioni non solo devono comprendere gli eventi passati usando Analytics, hanno bisogno analisi predittiva, che spesso utilizza il machine learning (ML) per estrarre pattern di dati e affermazioni probabilistiche sul futuro. L'obiettivo finale è sviluppare analisi prescrittiva che combinano lezioni del passato con previsioni sul futuro, che guidano automaticamente le azioni in tempo reale.
Le pratiche di data warehouse tradizionali acquisiscono dati non elaborati da varie origini, che spesso sono l'elaborazione transazionale online (OLTP). sistemi operativi. Quindi, un sottoinsieme di dati viene estratto in batch, trasformati in base a una schema definito e caricato nel data warehouse. Poiché i dati tradizionali I warehouse acquisiscono un sottoinsieme di dati in batch e archiviano i dati in base rigidi, non sono adatti alla gestione di analisi in tempo reale rispondere a domande spontanee. BigQuery progettato da Google in parte in risposta a queste limitazioni intrinseche.
Le idee innovative sono spesso rallentate dalle dimensioni e dalla complessità dell'organizzazione IT che implementa e gestisce questi data warehouse tradizionali. Per creare un'architettura di data warehouse scalabile, sicura e ad alta disponibilità possono essere necessari anni e investimenti sostanziali. BigQuery offre sofisticate SaaS (Software as a Service) che può essere utilizzata per le operazioni di data warehouse serverless. Questo ti consente di concentrarti sul miglioramento del tuo core business mentre delega la manutenzione dell'infrastruttura e lo sviluppo della piattaforma in Google Cloud.
BigQuery offre accesso ad archiviazione, elaborazione, scalabili, flessibili ed economici. Questi sono essenziali quando i volumi di dati sono in crescita in modo esponenziale, per rendere le risorse di archiviazione necessarie, oltre che per ottenere valore dai dati. Inoltre, per le organizzazioni che hanno appena iniziato con l'analisi dei big data e il machine learning. vuoi evitare le potenziali complessità dei sistemi di big data on-premise BigQuery offre un metodo di pagamento a consumo per sperimentare le funzionalità i servizi di machine learning.
Con BigQuery puoi trovare risposte a problemi precedentemente insolubili, applicare il machine learning per scoprire pattern di dati emergenti e testare nuove ipotesi. Di conseguenza, hai informazioni tempestive sul rendimento della tua attività, il che ti consente di modificare i processi per ottenere risultati migliori. Nella Inoltre, l'esperienza dell'utente finale è spesso arricchita da approfondimenti pertinenti e provenienti dall'analisi dei big data, come spiegheremo più avanti in questa serie.
Cosa e come eseguire la migrazione: framework per la migrazione
Eseguire una migrazione può essere un'impresa complessa e lunga. Pertanto, consigliamo di seguire un framework per organizzare e strutturare il lavoro di migrazione in fasi:
- Prepara e scopri: preparati alla migrazione con la scoperta dei carichi di lavoro e dei casi d'uso.
- Pianifica: assegna priorità ai casi d'uso, definisci le misure di risultato e pianifica la migrazione.
- Esecuzione: ripeti i passaggi per la migrazione, dalla valutazione alla dei dati.
Prepara e scopri
Nella fase iniziale, l'attenzione è rivolta alla preparazione e alla scoperta. Si tratta di offrendo a voi e agli stakeholder un'opportunità tempestiva per scoprire i casi d'uso esistenti e sollevare le preoccupazioni iniziali. È importante anche eseguire un'analisi iniziale dei vantaggi previsti. Sono inclusi i miglioramenti delle prestazioni (ad esempio, una maggiore concorrenza) e le riduzioni del costo totale di proprietà (TCO). Questa fase è fondamentale per aiutarti a stabilire il valore della migrazione.
Un data warehouse in genere supporta una vasta gamma di casi d'uso e ha un gran numero di stakeholder, dagli analisti dei dati ai responsabili delle decisioni aziendali. Ti consigliamo di coinvolgere i rappresentanti di questi gruppi per avere una buona conoscenza dei casi d'uso esistenti, del loro rendimento e se gli stakeholder stanno pianificando nuovi casi d'uso.
La procedura della fase di scoperta è costituita dalle seguenti attività:
- Esamina la proposta di valore di BigQuery e confrontala con quella del tuo data warehouse precedente.
- Eseguire un'analisi iniziale del TCO.
- Stabilisci quali casi d'uso sono interessati dalla migrazione.
- Modellare le caratteristiche dei set di dati e delle pipeline di dati sottostanti di cui vuoi eseguire la migrazione per identificare le dipendenze.
Per ottenere informazioni sui casi d'uso, puoi sviluppare un questionario per raccogliere informazioni da esperti in materia (SME), utenti finali e stakeholder. Il questionario deve raccogliere le seguenti informazioni:
- Qual è l'obiettivo del caso d'uso? Qual è il valore dell'attività?
- Quali sono i requisiti non funzionali? Aggiornamento dei dati in parallelo utilizzo e così via.
- Il caso d'uso fa parte di un carico di lavoro più grande? Dipende da altri casi di utilizzo?
- Quali set di dati, tabelle e schemi sono alla base del caso d'uso?
- Cosa sai delle pipeline di dati che alimentano questi set di dati?
- Quali strumenti di BI, report e dashboard vengono attualmente utilizzati?
- Quali sono i requisiti tecnici attuali relativi a esigenze operative, prestazioni, autenticazione e larghezza di banda della rete?
Il seguente diagramma mostra un'architettura precedente di alto livello prima della migrazione. Illustra il catalogo delle origini dati disponibili, delle pipeline di dati legacy, delle pipeline operative e dei loop di feedback legacy, nonché dei report e delle dashboard di BI legacy a cui accedono gli utenti finali.
Piano
La fase di pianificazione prevede l'utilizzo dell'input di preparazione e scoperta, valutando l'input e quindi utilizzandolo per la migrazione. Questa fase può essere suddivisa nelle seguenti attività:
Catalogo e priorità dei casi d'uso
Ti consigliamo di suddividere il processo di migrazione in iterazioni. Cataloga i casi d'uso esistenti e nuovi e assegna loro una priorità. Per vedi i dettagli. Eseguire la migrazione con un approccio iterativo e Dare priorità ai casi d'uso sezioni di questo documento.
Definire le misure del successo
È utile definire misure chiare per il successo, indicatori chiave di prestazione (KPI); prima della migrazione. Le misure che hai adottato ti permetteranno di valutare il successo della migrazione a ogni iterazione. Questo ti consente di miglioramenti al processo di migrazione nelle iterazioni successive.
Creare una definizione di "fine"
Con le migrazioni complesse, non è necessariamente ovvio quando hai completato la migrazione di un determinato caso d'uso. Pertanto, devi delineare una definizione formale dello stato finale previsto. Questa definizione deve essere generica da poter applicare a tutti i casi d'uso di cui vuoi eseguire la migrazione. La definizione deve fungere da insieme di criteri minimi per considerare completata la migrazione del caso d'uso. Questa definizione in genere include punti di controllo per assicurarci che il caso d'uso sia stato integrato, testato e documentato.
Progettare e proporre un proof of concept (POC), uno stato a breve termine e stato finale ideale
Dopo aver assegnato la priorità ai casi d'uso, puoi iniziare a valutarli durante l'intero periodo della migrazione. Considera il primo caso d'uso migrazione come proof of concept (PDC) per convalidare la migrazione iniziale l'importanza di un approccio umile. Rifletti su ciò che è possibile ottenere nelle prime settimane o nei mesi precedenti a breve termine. In che modo i tuoi piani di migrazione influiranno sugli utenti? Avranno una soluzione ibrida o puoi eseguire prima la migrazione di un intero carico di lavoro per un sottoinsieme di utenti?
Creare stime di tempo e costi
Per garantire il successo del progetto di migrazione, è importante generare stime di tempo realistiche. Per raggiungere questo obiettivo, coinvolgi tutte le parti interessate pertinenti per discutere della loro disponibilità e concordare il loro livello di coinvolgimento durante il progetto. In questo modo potrai stimare i costi di manodopera in modo più preciso. Per stimare i costi relativi al consumo previsto delle risorse cloud, consulta Stima dei costi di query e archiviazione e Introduzione al controllo dei costi di BigQuery nella documentazione di BigQuery.
Identifica e coinvolgi un partner per la migrazione
La documentazione di BigQuery descrive molti strumenti e risorse che puoi utilizzare per eseguire la migrazione. Tuttavia, può essere difficile eseguire autonomamente una migrazione di grandi dimensioni e complessa se non hai esperienza in merito o non disponi di tutte le competenze tecniche richieste all'interno della tua organizzazione. Pertanto, ti consigliamo di identificare e coinvolgere un partner per la migrazione fin dall'inizio. Per ulteriori dettagli, consulta partner globale e servizio di consulenza programmi.
Esegui la migrazione utilizzando un approccio iterativo
Quando si esegue la migrazione di un'operazione di data warehousing di grandi dimensioni nel cloud, idea di adottare un approccio iterativo. Pertanto, ti consigliamo di eseguire la transizione a BigQuery per fasi. Dividere la migrazione l'impegno nelle iterazioni semplifica il processo complessivo, riduce i rischi e offre opportunità di apprendimento e miglioramento dopo ogni iterazione.
Un'iterazione è costituita da tutto il lavoro necessario per eseguire il offload o la migrazione completa di uno o più casi d'uso correlati in un periodo di tempo limitato. Puoi considerare un'iterazione come un ciclo di sprint nella metodologia agile, costituito da una o più user story.
Per praticità e facilità di monitoraggio, puoi valutare l'associazione di un caso d'uso individuale con una o più storie utente. Ad esempio, prendi in considerazione la seguente storia utente: "In qualità di analista dei prezzi, voglio analizzare le variazioni di prezzo dei prodotti nell'ultimo anno per poter calcolare i prezzi futuri".
Il caso d'uso corrispondente potrebbe essere:
- Importazione dei dati da un database transazionale in cui vengono archiviati i prodotti e prezzi.
- Trasformare i dati in un'unica serie temporale per ogni prodotto e inserendo eventuali valori mancanti.
- Archiviazione dei risultati in una o più tabelle nel data warehouse.
- Rendendo i risultati disponibili tramite un blocco note Python (il applicazione aziendale).
Il valore aziendale di questo caso d'uso consiste nel supportare l'analisi dei prezzi.
Come nella maggior parte dei casi d'uso, questo caso d'uso probabilmente supporterà storie.
Un caso d'uso sottoposto a offload sarà probabilmente seguito da un'iterazione successiva per eseguire la migrazione completa del caso d'uso. In caso contrario, potresti comunque avere una dipendenza un data warehouse legacy esistente, perché i dati vengono copiati da lì. La migrazione completa successiva è la differenza tra lo scaricamento e una migrazione completa che non è stata preceduta da uno scaricamento, in altre parole la migrazione delle pipeline di dati per estrarre, trasformare e caricare i dati nel data warehouse.
Dare la priorità ai casi d'uso
Il punto di inizio e di fine della migrazione dipende dalle esigenze specifiche della tua attività. Decidere l'ordine in cui eseguire la migrazione dei casi d'uso è importante perché il successo iniziale durante una migrazione è fondamentale per continuare il percorso di adozione del cloud. Un errore nelle prime fasi può rappresentare un grave ostacolo per l'intero processo di migrazione. Potresti essere a conoscenza dei vantaggi di Google Cloud e BigQuery, ma l'elaborazione di tutti i set di dati e le pipeline di dati creati o gestiti nel tuo data warehouse precedente per casi d'uso diversi può essere complicata e richiedere molto tempo.
Sebbene non esista una risposta valida per tutti, esistono best practice che puoi utilizzare per valutare i casi d'uso e le applicazioni aziendali on-premise. Questo tipo di pianificazione anticipata può semplificare il processo di migrazione l'intera transizione a BigQuery.
Le seguenti sezioni esplorano i possibili approcci per dare priorità all'utilizzo d'uso diversi.
Approccio: sfrutta le opportunità attuali
Esamina le opportunità attuali che potrebbero aiutarti a massimizzare il ritorno sull'investimento di un caso d'uso specifico. Questo approccio è particolarmente utile sotto pressione per giustificare il valore aziendale della migrazione al cloud. Inoltre, offre l'opportunità di raccogliere ulteriori punti dati per aiutare a valutare il totale costi di migrazione.
Ecco alcune domande di esempio che puoi porre per identificare i casi d'uso da dare la priorità:
- Il caso d'uso è costituito da set di dati o pipeline di dati attualmente limitati dal data warehouse aziendale legacy?
- Il data warehouse aziendale esistente richiede un aggiornamento hardware, o prevedi la necessità di ampliare il tuo hardware? In tal caso, è utile trasferire i casi d'uso in BigQuery prima rispetto a quella successiva.
Identificare le opportunità di migrazione può generare rapidamente risultati vantaggi tangibili e immediati per gli utenti e l'attività.
Approccio: prima la migrazione dei carichi di lavoro analitici
Esegui la migrazione dell'elaborazione analitica online (OLAP) carichi di lavoro prima dell'elaborazione delle transazioni online (OLTP) carichi di lavoro con scale out impegnativi. Un data warehouse è spesso l'unico posto nell'organizzazione in cui tutti i dati necessari per creare un'unica vista globale operazioni aziendali. Pertanto, è normale che le organizzazioni dispongano di alcune pipeline di dati che vengono reintrodotte nei sistemi transazionali per aggiornare lo stato o attivare le procedure, ad esempio per acquistare più scorte quando l'inventario di un prodotto è basso. OLTP i carichi di lavoro tendono a essere più complessi e prevedono e gli accordi sul livello del servizio (SLA) rispetto ai carichi di lavoro OLAP, pertanto tendenzialmente è più facile eseguire la migrazione dei carichi di lavoro OLAP. per prima cosa.
Approccio: concentrati sull'esperienza utente
Identifica le opportunità per migliorare l'esperienza utente eseguendo la migrazione di set di dati specifici e attivando nuovi tipi di analisi avanzate. Ad esempio, un modo per migliorare l'esperienza utente con l'analisi in tempo reale. Puoi creare esperienze utente sofisticate attorno a un flusso di dati in tempo reale quando viene combinato con i dati storici. Ad esempio:
- Un dipendente del back office ha avvisato tramite un'app mobile che le scorte sono in esaurimento.
- Un cliente online che potrebbe trarre vantaggio dal sapere che se spende un altro dollaro passerà al livello di premio successivo.
- Un'infermiera che riceve un avviso sui parametri vitali di un paziente sul suo smartwatch, il che le consente di adottare la migliore linea di condotta consultando la cronologia delle cure del paziente sul suo tablet.
Puoi anche migliorare l'esperienza utente con analisi predittive e prescrittive. A questo scopo, puoi utilizzare BigQuery ML, Vertex AI AutoML tabulare, o modelli preaddestrati di Google analisi delle immagini, analisi video, riconoscimento vocale, linguaggio naturale, e traduzione. In alternativa, puoi pubblicare il tuo modello con addestramento personalizzato utilizzando Vertex AI per i casi d'uso su misura per le esigenze della tua azienda. ad esempio:
- Consigliare un prodotto in base alle tendenze di mercato e al comportamento di acquisto degli utenti.
- Prevedere un ritardo del volo.
- Rilevamento di attività fraudolente.
- Segnalare contenuti inappropriati.
- Altre idee innovative che potrebbero differenziare la tua app dalla concorrenza.
Approccio: dare priorità ai casi d'uso meno rischiosi
Esistono una serie di domande che l'IT può porre per aiutare a valutare quali casi d'uso sono meno rischiosi per la migrazione, il che li rende più interessanti per la migrazione nelle prime fasi della migrazione. Ad esempio:
- Qual è la criticità aziendale di questo caso d'uso?
- Il caso d'uso dipende da un numero elevato di dipendenti o clienti?
- Qual è l'ambiente di destinazione (ad esempio sviluppo o produzione) per il caso d'uso?
- Qual è la comprensione del caso d'uso da parte del nostro team IT?
- Quante dipendenze e integrazioni ha il caso d'uso?
- Il nostro team IT dispone di documentazione adeguata, aggiornata e completa per il caso d'uso?
- Quali sono i requisiti operativi (SLA) per il caso d'uso?
- Quali sono i requisiti di conformità legali o governativi per il caso d'uso?
- Quali sono le sensibilità di tempo di inattività e latenza per accedere per il set di dati sottostante?
- Ci sono titolari di line-of-business desiderosi e disposti a migrare il proprio utilizzo caso in anticipo?
Esaminare questo elenco di domande può aiutarti a classificare i set di dati e le pipeline di dati dal rischio più basso a quello più elevato. La migrazione degli asset a basso rischio deve essere eseguita prima, mentre quella di quelli a rischio più elevato deve essere eseguita in un secondo momento.
Esegui
Dopo aver raccolto informazioni sui sistemi legacy e aver creato un di casi d'uso prioritari, puoi raggrupparli in carichi di lavoro procedere con la migrazione in iterazioni.
Un'iterazione può essere costituita da un singolo caso d'uso, da alcuni casi d'uso distinti o da un numero di casi d'uso relativi a un singolo carico di lavoro. La scelta di una di queste opzioni per l'iterazione dipende dall'interconnessione dei casi d'uso, dalle eventuali dipendenze condivise e dalle risorse a tua disposizione per svolgere il lavoro.
In genere, una migrazione prevede i seguenti passaggi:
Questi passaggi sono descritti in maggiore dettaglio nelle sezioni seguenti. Potresti non dover eseguire tutti questi passaggi in ogni iterazione. Ad esempio, in un'iterazione potresti decidere di concentrarti sulla copia di alcuni dati dal tuo data warehouse precedente a BigQuery. Al contrario, in un'iterazione successiva potresti concentrarti sulla modifica della pipeline di importazione da un'origine dati originale direttamente a BigQuery.
1. Configurazione e governance dei dati
La configurazione è l'attività di base necessaria per consentire l'esecuzione dei casi d'uso su Google Cloud. La configurazione può includere la configurazione Progetti Google Cloud, rete, VPC (Virtual Private Cloud) e dati la governance dell'IA. Inoltre, è necessario acquisire una buona conoscenza della situazione attuale, ovvero di cosa funziona e cosa no. Questo ti aiuta a comprendere i requisiti per la migrazione. Puoi utilizzare lo Funzionalità di valutazione della migrazione di BigQuery per assisterti in questo passaggio.
La governance dei dati è un solido approccio per gestire i dati durante il loro ciclo di vita, dall'acquisizione all'uso e allo smaltimento. Il programma di governance dei dati illustra chiaramente criteri, procedure, responsabilità e controlli relativi alle attività relative ai dati. Questo programma contribuisce a garantire che le informazioni vengano raccolte, manutenute, utilizzate e diffuse in modo da soddisfare sia l'integrità dei dati sia le esigenze di sicurezza della tua organizzazione. Inoltre, consente ai dipendenti di a scoprire e utilizzare i dati al massimo delle sue potenzialità.
La documentazione sulla governance dei dati ti consente comprendere la governance dei dati e i controlli di cui hai bisogno durante la migrazione da un data warehouse on-premise a BigQuery.
2. Esegui la migrazione di schema e dati
Lo schema del data warehouse definisce il modo in cui sono strutturati i dati e definisce i relazioni tra le entità dati. Lo schema è al centro del design dei dati e influisce su molti processi, sia a monte che a valle.
Lo schema e il trasferimento di dati la documentazione fornisce informazioni esaurienti su come puoi spostare i tuoi dati BigQuery e i consigli per aggiornare lo schema sfruttare appieno le funzionalità di BigQuery.
3. Traduci query
Utilizza la traduzione SQL batch per eseguire la migrazione collettiva del codice SQL o la traduzione SQL interattiva per tradurre le query ad hoc.
Alcuni data warehouse precedenti includono estensioni allo standard SQL per attivare la funzionalità del loro prodotto. BigQuery non supportano queste estensioni proprietarie; è conforme alle ANSI/ISO SQL:2011 standard. Ciò significa che alcune query potrebbero comunque richiedere la gestione il refactoring se i traduttori SQL non sono in grado di interpretarli.
4. Esegui la migrazione delle applicazioni aziendali
Applicazioni aziendali può assumere molte forme: dalle dashboard alle dalle applicazioni alle pipeline di dati operativi che forniscono cicli di feedback e transazionali.
Per scoprire di più sulle opzioni di analisi quando si utilizza BigQuery, consulta Panoramica dell'analisi di BigQuery. Questo argomento fornisce una panoramica degli strumenti di generazione di report e analisi che puoi utilizzare per ottenere approfondimenti interessanti dai tuoi dati.
La sezione sui cicli di feedback nella documentazione della pipeline di dati descrive come utilizzare pipeline di dati per creare un ciclo di feedback per il provisioning dei sistemi a monte.
5. Esegui la migrazione delle pipeline di dati
Le pipeline di dati la documentazione illustra le procedure, i pattern e le tecnologie per la migrazione pipeline di dati in Google Cloud. Ti aiuta a capire una pipeline di dati, le procedure e i pattern che può utilizzare le opzioni e le tecnologie di migrazione disponibili migrazione del data warehouse.
6. Ottimizzazione del rendimento
BigQuery elabora i dati in modo efficiente, sia per aziende nell'ordine dei petabyte. Con l'aiuto di BigQuery, i tuoi job di analisi dei dati dovrebbero funzionare bene senza modifiche nel data warehouse di nuova migrazione. Se in determinate circostanze il rendimento delle query non soddisfa le tue aspettative, consulta la sezione Introduzione all'ottimizzazione del rendimento delle query per indicazioni.
7. Verifica e convalida
Al termine di ogni iterazione, verifica che la migrazione del caso d'uso sia abbia successo verificando che:
- La migrazione dei dati e dello schema è stata completata.
- I problemi di governance dei dati sono stati completamente soddisfatti e testati.
- Sono state stabilite procedure di manutenzione e monitoraggio e automazione.
- Le query sono state tradotte correttamente.
- Le pipeline di dati migrate funzionano come previsto.
- Le applicazioni aziendali sono configurate correttamente per accedere ai dati e alle query sottoposti a migrazione.
Puoi iniziare a usare lo strumento di convalida dei dati, uno strumento open source lo strumento dell'interfaccia a riga di comando Python che confronta i dati dagli ambienti di origine e di destinazione per assicurarti che corrispondano. Supporta più tipi di connessione e funzionalità di convalida a più livelli.
È inoltre buona norma misurare l'impatto della migrazione dei casi d'uso, ad esempio in termini di miglioramento delle prestazioni, riduzione dei costi o introduzione di nuove opportunità tecniche o commerciali. In questo modo potrai quantificare in modo più accurato il valore del ritorno sull'investimento e confrontarlo con il successo criteri per l'iterazione.
Dopo aver convalidato l'iterazione, puoi rilasciare il caso d'uso di cui è stata eseguita la migrazione produzione e concedi agli utenti l'accesso ai set di dati e alle attività diverse applicazioni.
Infine, prendi appunti e documenta le lezioni apprese da questa iterazione, in modo da puoi applicare queste lezioni nella prossima iterazione e accelerare la migrazione.
Riepilogo dell'impegno per la migrazione
Durante la migrazione, esegui sia il data warehouse legacy BigQuery, come descritto in questo documento. Il riferimento nel diagramma seguente evidenzia che entrambi i data warehouse offrono funzionalità e percorsi simili: entrambi possono essere importati dai sistemi di origine, si integrano con le applicazioni aziendali e forniscono l'accesso richiesto all'utente. È importante sottolineare che il diagramma evidenzia anche che i dati vengono sincronizzati data warehouse su BigQuery. In questo modo i casi d'uso durante l'intera durata della migrazione.
Supponendo che tu voglia eseguire la migrazione completa dal tuo data warehouse a BigQuery, lo stato finale della migrazione è il seguente:
Passaggi successivi
Scopri di più sui seguenti passaggi della migrazione del data warehouse:
- Valutazione della migrazione
- Panoramica del trasferimento di schemi e dati
- Pipeline di dati
- Traduzione SQL batch
- Traduzione SQL interattiva
- Sicurezza e governance dei dati
- Strumento di convalida dei dati
Puoi anche scoprire come passare da tecnologie di data warehouse specifiche a BigQuery:
- Migrazione da Netezza
- Eseguire la migrazione da Oracle
- Eseguire la migrazione da Amazon Redshift
- Migrazione da Teradata
- Migrazione da Snowflake