Migrazione da Teradata a BigQuery - introduzione
Questo documento descrive i motivi per cui potresti eseguire la migrazione da Teradata a BigQuery, confronta le funzionalità di Teradata e BigQuery e fornisce una panoramica dei passaggi per iniziare la migrazione a BigQuery.
Perché eseguire la migrazione da Teradata a BigQuery?
Teradata è stata una delle prime aziende a innovare la gestione e l'analisi di volumi di dati sostanziali. Tuttavia, con l'evolversi delle tue esigenze di cloud computing, potresti aver bisogno di una soluzione più moderna per l'analisi dei dati.
Se in precedenza hai utilizzato Teradata, valuta la migrazione a BigQuery per i seguenti motivi:
- Superare i limiti della piattaforma legacy
- L'architettura convenzionale di Teradata spesso fatica a soddisfare le esigenze dell'analisi moderna, in particolare la necessità di concorrenza illimitata e prestazioni costantemente elevate per diversi carichi di lavoro. L'architettura serverless di BigQuery è progettata per gestire queste esigenze con il minimo sforzo.
- Adotta una strategia cloud-native
- Molte organizzazioni stanno passando strategicamente dall'infrastruttura on-premise al cloud. Questo cambiamento richiede di abbandonare le soluzioni convenzionali legate all'hardware come Teradata per passare a un servizio completamente gestito, scalabile e on demand come BigQuery per ridurre l'overhead operativo.
- Esegui l'integrazione con origini dati e analisi moderne
- I dati aziendali chiave risiedono sempre più in origini basate sul cloud. BigQuery è integrato in modo nativo con l'ecosistema Google Cloud , fornendo un accesso semplice a queste origini e consentendo analisi avanzate, machine learning ed elaborazione dei dati in tempo reale senza i limiti dell'infrastruttura di Teradata.
- Ottimizza costi e scalabilità
- Teradata spesso comporta processi di scalabilità complessi e costosi. BigQuery offre una scalabilità trasparente e automatica sia dell'archiviazione che del computing in modo indipendente, eliminando la necessità di riconfigurazione manuale e fornendo un costo totale di proprietà più prevedibile e spesso inferiore.
Confronto delle funzioni
La seguente tabella mette a confronto le funzionalità e i concetti di Teradata con le funzionalità equivalenti in BigQuery:
Concetto di Teradata | Equivalente BigQuery | Descrizione |
---|---|---|
Teradata (on-premise, cloud, ibrido) | BigQuery (piattaforma unificata per i dati e l'AI). BigQuery offre un ampio insieme di funzionalità aggiuntive rispetto a un data warehouse convenzionale. | BigQuery è un data warehouse cloud-native completamente gestito su Google Cloud. Teradata offre opzioni on-premise, cloud e ibride. BigQuery è serverless e disponibile su tutti i cloud come BQ Omni. |
Strumenti Teradata (Teradata Studio, BTEQ) | Google Cloud console, BigQuery Studio, lo strumento a riga di comando bq | Entrambi offrono interfacce per la gestione e l'interazione con il data warehouse. BigQuery Studio è basato sul web e integrato con Google Cloud e offre la possibilità di scrivere SQL, Python e Apache Spark. |
Database/Schemi | Set di dati | In Teradata, i database e gli schemi vengono utilizzati per organizzare tabelle e viste, in modo simile ai set di dati BigQuery. Tuttavia, il modo in cui vengono gestiti e utilizzati può variare. |
Tabella | Tabella | Entrambe le piattaforme utilizzano tabelle per archiviare i dati in righe e colonne. |
Visualizza | Visualizza | Le viste funzionano in modo simile in entrambe le piattaforme, fornendo un modo per creare tabelle virtuali basate su query. |
Chiave primaria | Chiave primaria (non applicata in GoogleSQL) | BigQuery supporta le chiavi primarie non applicate in GoogleSQL. Questi vengono utilizzati principalmente per l'ottimizzazione delle query. |
Chiave esterna | Chiave esterna (non applicata in GoogleSQL) | BigQuery supporta le chiavi esterne non applicate in GoogleSQL. Questi vengono utilizzati principalmente per l'ottimizzazione delle query. |
Indice | Clustering, indici di ricerca, indici vettoriali (automatici o gestiti) | Teradata consente la creazione esplicita di indici. Ti consigliamo il clustering in BigQuery. Sebbene non sia equivalente agli indici di database, il clustering consente di archiviare i dati ordinati su disco e ciò contribuisce a ottimizzare il recupero dei dati quando le colonne in cluster vengono utilizzate come predicati. BigQuery supporta gli indici di ricerca e gli indici vettoriali. |
Partizionamento | Partizionamento | Entrambe le piattaforme supportano il partizionamento delle tabelle per migliorare le prestazioni delle query su tabelle di grandi dimensioni. BigQuery supporta solo il partizionamento per date e numeri interi. Per le stringhe, utilizza invece il clustering. |
Allocazione delle risorse (in base a hardware e licenze) | Prenotazioni (basate sulla capacità), prezzi on demand (prezzi dell'analisi) | BigQuery offre modelli di determinazione dei prezzi flessibili. Le prenotazioni forniscono costi prevedibili per carichi di lavoro coerenti e ad hoc utilizzando la scalabilità automatica, mentre i prezzi on demand si concentrano sugli addebiti per byte di scansione per query. |
BTEQ, SQL Assistant, altri strumenti client | BigQuery Studio, lo strumento a riga di comando bq, API | BigQuery offre varie interfacce per l'esecuzione di query, tra cui un editor basato sul web, uno strumento a riga di comando e API per l'accesso programmatico. |
Logging/cronologia delle query | Cronologia delle query, INFORMATION_SCHEMA.JOBS |
BigQuery conserva una cronologia delle query eseguite, consentendoti di esaminare le query passate, analizzare le prestazioni e risolvere i problemi. INFORMATION_SCHEMA.JOBS conserva la cronologia di tutti i job inviati negli ultimi sei mesi. |
Funzionalità di sicurezza (controllo dell'accesso, crittografia) | Funzionalità di sicurezza (IAM, ACL, crittografia) | Entrambi offrono una sicurezza robusta. BigQuery utilizza Google Cloud IAM per controllo dell'accesso granulare. |
Controlli di rete (firewall, VPN) | Controlli di servizio VPC, accesso privato Google | BigQuery si integra con Controlli di servizio VPC per limitare l'accesso alle risorse BigQuery da reti specifiche. L'accesso privato Google ti consente di accedere a BigQuery senza utilizzare IP pubblici. |
Gestione di utenti e ruoli | Identity and Access Management (IAM) | BigQuery utilizza IAM per controllo dell'accesso granulare. Puoi concedere autorizzazioni specifiche a utenti e service account a livello di progetto, set di dati e tabella. |
Concessioni e ruoli sugli oggetti | Elenchi di controllo dell'accesso (ACL) su set di dati e tabelle | BigQuery ti consente di definire ACL su set di dati e tabelle per controllare l'accesso a un livello granulare. |
Crittografia dei dati at-rest e in transito | Crittografia at-rest e in transito, chiavi di crittografia gestite dal cliente (CMEK), le chiavi possono essere ospitate in sistemi EKM esterni. | BigQuery cripta i dati per impostazione predefinita. Puoi anche gestire le tue chiavi di crittografia per un maggiore controllo. |
Funzionalità di governance e conformità dei dati | Norme di governance dei dati, DLP (prevenzione della perdita di dati) | BigQuery supporta le norme di governance dei dati e la prevenzione della perdita di dati per aiutarti a rispettare i requisiti di conformità e sicurezza dei dati. |
Utilità di caricamento di Teradata (ad es. FastLoad, MultiLoad), bteq | BigQuery Data Transfer Service, lo strumento a riga di comando bq, le API | BigQuery offre vari metodi di caricamento dei dati. Teradata dispone di utilità di caricamento specializzate. BigQuery pone l'accento su scalabilità e velocità per l'importazione dati. |
Utilità di esportazione Teradata, bteq | Strumento a riga di comando bq, API, Esporta in Cloud Storage | BigQuery offre l'esportazione dei dati in varie destinazioni. Teradata dispone di propri strumenti di esportazione. L'integrazione di BigQuery con Cloud Storage è un vantaggio fondamentale. L'API BigQuery Storage Read offre a qualsiasi capacità di calcolo esterna la possibilità di leggere i dati in blocco. |
Tabelle esterne | Tabelle esterne | Entrambi supportano l'esecuzione di query sui dati nello spazio di archiviazione esterno. BigQuery si integra bene con Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage e Google Drive. |
Viste materializzate | Viste materializzate | Entrambi offrono viste materializzate per le prestazioni delle query. BigQuery fornisce viste materializzate con ottimizzazione intelligente che restituiscono sempre i dati attuali e forniscono anche la riscrittura automatica delle query nelle viste materializzate anche quando la query fa riferimento alla tabella di base. |
Funzioni definite dall'utente | Funzioni definite dall'utente (SQL, JavaScript) | BigQuery supporta le funzioni definite dall'utente in SQL e JavaScript. |
Teradata Scheduler, altri strumenti di pianificazione | Query programmate, Cloud Composer, Cloud Functions, pipeline BigQuery | BigQuery si integra con i servizi di pianificazione Google Cloud e altri strumenti di pianificazione esterni. |
Viewpoint | Amministrazione di BigQuery per il monitoraggio, controllo di integrità, l'esplorazione dei job e la gestione della capacità. | BigQuery offre una casella degli strumenti di amministrazione completa basata su UI che contiene diversi riquadri per monitorare lo stato di integrità operativo e l'utilizzo delle risorse. |
Backup e ripristino | Clonazione di set di dati, time travel e fail safe, snapshot e clonazione di tabelle, spazio di archiviazione regionale e multiregionale, backup e ripristino tra regioni. | BigQuery offre snapshot e time travel per il recupero dei dati. Lo spostamento cronologico è una funzionalità che ti consente di accedere ai dati storici in un determinato periodo di tempo. BigQuery offre anche la clonazione dei set di dati, l'archiviazione regionale e multiregionale e opzioni di backup e ripristino tra regioni. |
Funzioni geospaziali | Funzioni geospaziali | Entrambe le piattaforme supportano dati e funzioni geospaziali. |
Inizia
Le sezioni seguenti riepilogano il processo di migrazione da Teradata a BigQuery:
Esegui una valutazione della migrazione
Nella migrazione da Teradata a BigQuery, ti consigliamo di iniziare eseguendo lo strumento di valutazione della migrazione di BigQuery per valutare la fattibilità e i potenziali vantaggi del trasferimento del data warehouse da Teradata a BigQuery. Questo strumento fornisce un approccio strutturato per comprendere l'ambiente Teradata attuale e stimare l'impegno necessario per una migrazione riuscita.
L'esecuzione dello strumento BigQuery Migration Assessment produce un report di valutazione che contiene le seguenti sezioni:
- Report di sistema esistente: uno snapshot del sistema Teradata esistente e dell'utilizzo, incluso il numero di database, schemi, tabelle e dimensioni totali in TB. Elenca inoltre gli schemi in base alle dimensioni e indica un potenziale utilizzo non ottimale delle risorse, ad esempio tabelle senza scritture o con poche letture.
- Suggerimenti per la trasformazione dello stato stazionario di BigQuery: mostra l'aspetto del sistema su BigQuery dopo la migrazione. Include suggerimenti per ottimizzare i carichi di lavoro su BigQuery ed evitare sprechi.
- Piano di migrazione: fornisce informazioni sull'impegno di migrazione stesso. Ad esempio, il passaggio dal sistema esistente allo stato stazionario di BigQuery. Questa sezione include il conteggio delle query che sono state tradotte automaticamente e il tempo previsto per spostare ogni tabella in BigQuery.
Per ulteriori informazioni sui risultati di una valutazione della migrazione, vedi Esaminare il report di Looker Studio.
Eseguire la migrazione di schema e dati da Teradata
Dopo aver esaminato i risultati della valutazione della migrazione, puoi iniziare la migrazione di Teradata preparando BigQuery per la migrazione e poi configurando un job di trasferimento dei dati.
Per maggiori informazioni sul processo di migrazione di Teradata, vedi Eseguire la migrazione di schema e dati da Teradata.
Convalidare la migrazione
Una volta eseguita la migrazione dei dati Teradata a BigQuery, esegui lo strumento di convalida dei dati (DVT) per eseguire una convalida dei dati sui dati BigQuery di cui è stata appena eseguita la migrazione. Il DVT convalida varie funzioni, dal livello di tabella al livello di riga, per verificare che i dati di cui è stata eseguita la migrazione funzionino come previsto. Per saperne di più sullo strumento di convalida dei dati, vedi Introduzione dello strumento di convalida dei dati per le migrazioni EDW.
Puoi accedere al DVT nel repository GitHub pubblico DVT.
Passaggi successivi
- Prova una migrazione di test da Teradata a BigQuery.