BigQuery, la piattaforma di dati completamente gestita di Google Cloud, è una soluzione scalabile ed economica per l'integrazione e l'analisi dei dati.
Panoramica
ELT (Extract, Load, Transform) è il modello consigliato da Google Cloud per l'integrazione dei dati. ELT prevede l'estrazione dei dati dagli ambienti di origine, il loro caricamento in BigQuery e la successiva trasformazione nel formato desiderato per l'analisi. A differenza dell'approccio ETL (Extract, Transform, Load), che prevede la trasformazione dei dati prima del loro caricamento in un data warehouse, l'approccio ELT consente di sfruttare tutta la potenza di BigQuery per eseguire le trasformazioni dei dati e consente a qualsiasi utente SQL di sviluppare in modo efficace pipeline di integrazione dei dati.
L'approccio ELT accelera il time to market offrendo un framework familiare e incentrato sui dati che riduce al minimo la curva di apprendimento. ELT elimina anche la necessità di un'infrastruttura ETL separata, riducendo i costi associati alla trasformazione dei dati prima del relativo caricamento.
L'architettura di BigQuery supporta una straordinaria scalabilità e l'elaborazione in parallelo, consentendo di gestire in modo efficiente set di dati di grandi dimensioni e trasformazioni complesse. ELT facilita la governance dei dati centralizzandoli in BigQuery e consentendo così di applicare policy di sicurezza e qualità dei dati coerenti integrate nella piattaforma.
BigQuery supporta varie origini e formati di dati, tra cui Apache Iceberg, che offre flessibilità nell'integrazione di dati diversi. Oltre alla scelta dei dati, è possibile scegliere anche la lingua. Uno dei principali vantaggi dell'ELT è che SQL si adatta a diverse pipeline SDLC.
Importa i dati in BigQuery
| Importa i dati in BigQuery | Il percorso di integrazione dei dati di BigQuery con ELT. |
|---|---|
| Fase | Soluzione |
Estrai e carica | Caricamento collettivo: BigQuery Data Transfer Service (DTS) automatizza il caricamento collettivo dei dati dalle origini dati supportate in BigQuery. Carico in modalità flusso: le sottoscrizioni Pub/Sub a BigQuery scrivono i messaggi Pub/Sub in una tabella BigQuery esistente non appena vengono ricevuti. Change Data Capture (CDC), Datastream consente l'acquisizione non intrusiva di dati di modifica (CDC) dai database in BigQuery. Federazione a origini dati esterne: BigQuery supporta la federazione a una serie di origini dati esterne che non richiedono lo spostamento dei dati. |
Trasformazione | Le funzionalità di trasformazione di BigQuery sono create con Dataform, uno strumento per creare, testare e documentare in modo collaborativo la trasformazione dei dati SQL con il DML (Data Manipulation Language) di BigQuery. Per semplificare la trasformazione dei dati, abbiamo creato due potenti esperienze che sfruttano Dataform: Trasformazione dei dati basata sull'AI: la preparazione dei dati in BigQuery (in anteprima) fornisce suggerimenti intelligenti per la pulizia, la trasformazione e l'arricchimento dei dati, il che può ridurre il tempo e lo sforzo necessari per le attività di preparazione dei dati. Trasformazione visiva dei dati basata su SQL: i workflow BigQuery (in anteprima) offrono un'esperienza utente visiva per creare in modo interattivo workflow semplici. |
Migrazione di dati su larga scala | Oltre ai pattern trattati in precedenza, le migrazioni a Google Cloud possono comportare migrazioni di massa di dati da data warehouse esistenti a BigQuery. BigQuery Migration Service è un servizio completamente gestito che consente ai clienti di caricare data warehouse esistenti in BigQuery per un'ulteriore analisi dei dati. |
Importa i dati in BigQuery
Il percorso di integrazione dei dati di BigQuery con ELT.
Estrai e carica
Caricamento collettivo: BigQuery Data Transfer Service (DTS) automatizza il caricamento collettivo dei dati dalle origini dati supportate in BigQuery.
Carico in modalità flusso: le sottoscrizioni Pub/Sub a BigQuery scrivono i messaggi Pub/Sub in una tabella BigQuery esistente non appena vengono ricevuti.
Change Data Capture (CDC), Datastream consente l'acquisizione non intrusiva di dati di modifica (CDC) dai database in BigQuery.
Federazione a origini dati esterne: BigQuery supporta la federazione a una serie di origini dati esterne che non richiedono lo spostamento dei dati.
Trasformazione
Le funzionalità di trasformazione di BigQuery sono create con Dataform, uno strumento per creare, testare e documentare in modo collaborativo la trasformazione dei dati SQL con il DML (Data Manipulation Language) di BigQuery. Per semplificare la trasformazione dei dati, abbiamo creato due potenti esperienze che sfruttano Dataform:
Trasformazione dei dati basata sull'AI: la preparazione dei dati in BigQuery (in anteprima) fornisce suggerimenti intelligenti per la pulizia, la trasformazione e l'arricchimento dei dati, il che può ridurre il tempo e lo sforzo necessari per le attività di preparazione dei dati.
Trasformazione visiva dei dati basata su SQL: i workflow BigQuery (in anteprima) offrono un'esperienza utente visiva per creare in modo interattivo workflow semplici.
Migrazione di dati su larga scala
Oltre ai pattern trattati in precedenza, le migrazioni a Google Cloud possono comportare migrazioni di massa di dati da data warehouse esistenti a BigQuery. BigQuery Migration Service è un servizio completamente gestito che consente ai clienti di caricare data warehouse esistenti in BigQuery per un'ulteriore analisi dei dati.
Come funziona
BigQuery offre a data engineer e sviluppatori di applicazioni un ricco portafoglio di prodotti e funzionalità per aiutarli a creare, pianificare e gestire pipeline. L'ampia gamma di offerte ti offre la flessibilità di scegliere tra i paradigmi ETL ed ELT.
BigQuery è una piattaforma di dati unificata pronta per l'AI che ti consente di collegare tutti i dati aziendali all'AI. BigQuery importa dati da diverse origini (messaggistica, database e altro) tramite batch, flussi di dati o Change Data Capture (CDC). BigQuery archivia, calcola e gestisce i dati con un livello di trasformazione basato sull'AI e un'esperienza utente unificata per l'analisi.
BigQuery è una piattaforma di dati unificata pronta per l'AI che ti consente di collegare tutti i dati aziendali all'AI. BigQuery importa dati da diverse origini (messaggistica, database e altro) tramite batch, flussi di dati o Change Data Capture (CDC). BigQuery archivia, calcola e gestisce i dati con un livello di trasformazione basato sull'AI e un'esperienza utente unificata per l'analisi.
Crea una potente pipeline ELT su Google Cloud:
Questa configurazione offre scalabilità, funzionalità in tempo reale e trasformazione efficiente dei dati per un'analisi completa.
Crea una potente pipeline ELT su Google Cloud:
Questa configurazione offre scalabilità, funzionalità in tempo reale e trasformazione efficiente dei dati per un'analisi completa.