Panoramica di Datastream

Panoramica

Datastream è un servizio CDC (Change Data Capture) e di replica serverless e di facile utilizzo che consente di sincronizzare i dati in modo affidabile e con latenza minima.

Datastream fornisce la replica perfetta dei dati da database operativi in BigQuery. Inoltre, Datastream supporta la scrittura del flusso di eventi di modifica in Cloud Storage e offre un'integrazione semplificata con i modelli Dataflow per creare flussi di lavoro personalizzati per il caricamento dei dati in un'ampia gamma di destinazioni, come Cloud SQL e Spanner. Puoi anche utilizzare Datastream per utilizzare il flusso di eventi direttamente da Cloud Storage, così da creare architetture basate su eventi. Datastream supporta le origini Oracle, MySQL, SQL Server (Anteprima) e PostgreSQL (incluso AlloyDB per PostgreSQL).

I vantaggi di Datastream includono:

  • Configurazione immediata delle pipeline ELT (Estrai, Carica, Trasforma) per la replica dei dati a bassa latenza e abilita insight quasi in tempo reale in BigQuery.
  • Il servizio è serverless, quindi non ci sono risorse di cui eseguire il provisioning o viene gestito, e il servizio esegue automaticamente lo scale up e lo scale down a seconda delle esigenze, con tempi di inattività minimi.
  • Esperienze di configurazione e monitoraggio facili da usare che consentono di raggiungere un time-to-value rapidissimo.
  • Integrazione con il meglio del portafoglio di servizi dati di Google Cloud per l'integrazione dei dati tra Datastream, Dataflow, Cloud Data Fusion, Pub/Sub, BigQuery e altri prodotti.
  • Sincronizzazione e unificazione dei flussi di dati in database e applicazioni eterogenei.
  • Sicurezza, con le opzioni di connettività privata e la sicurezza che ti aspetti da Google Cloud.
  • Essere accurate e affidabili, con report sullo stato trasparenti e una solida flessibilità di elaborazione di fronte alle modifiche ai dati e allo schema.
  • Supportare molteplici casi d'uso, tra cui analisi, replica dei database e sincronizzazione per migrazioni e configurazioni di cloud ibrido e per la creazione di architetture basate su eventi.

Casi d'uso

Le funzionalità di elaborazione in modalità flusso di Datastream consentono una varietà di casi d'uso:

  • Replica e sincronizzazione dei dati in tutta l'organizzazione con una latenza minima

    Puoi sincronizzare i dati in database e applicazioni eterogenei in modo affidabile, con bassa latenza e con un impatto minimo sulle prestazioni dell'origine. Sfrutta la potenza dei flussi di dati per analisi, replica dei database, migrazione al cloud e architetture basate su eventi in ambienti ibridi.

  • Fai lo scale up o lo scale down con un'architettura serverless senza problemi

    Inizia rapidamente a lavorare con un servizio serverless e facile da usare che scala senza problemi di pari passo con i cambiamenti dei volumi di dati. Concentrati sulla derivazione di insight aggiornati dai tuoi dati e sulla risposta a problemi ad alta priorità, anziché gestire l'infrastruttura, l'ottimizzazione delle prestazioni o il provisioning delle risorse.

  • Integrazione con la suite di integrazione dei dati di Google Cloud

    Connetti i dati di tutta la tua organizzazione con la suite di prodotti di integrazione dei dati di Google Cloud. Datastream utilizza i modelli Dataflow per caricare dati in BigQuery, Spanner e Cloud SQL ed è alla base dei connettori CDC Replicator di Cloud Data Fusion per una pipeline di dati più semplice che mai.

Elementi dell'esperienza

Datastream è composto da tre elementi principali:

  • Le configurazioni di connettività privata consentono a Datastream di comunicare con un'origine dati su una rete privata (internamente all'interno di Google Cloud o con origini esterne connesse tramite VPN o Interconnect). Questa comunicazione avviene tramite una connessione di peering Virtual Private Cloud (VPC).
  • I profili di connessione rappresentano informazioni sulla connettività sia a un'origine che a una destinazione. Queste informazioni verranno utilizzate da uno stream.
  • I flussi utilizzano le informazioni nei profili di connessione per trasferire i dati CDC e di eseguire il backfill dei dati dall'origine alla destinazione.