Panoramica di Datastream

Panoramica

Datastream è un servizio CDC (Change Data Capture) e di replica serverless e di facile utilizzo che consente di sincronizzare i dati in modo affidabile e con latenza minima.

Datastream fornisce la replica perfetta dei dati da database operativi in BigQuery. Inoltre, Datastream supporta la scrittura del flusso di eventi di modifica in Cloud Storage e offre un'integrazione semplificata con i modelli Dataflow per creare flussi di lavoro personalizzati per il caricamento dei dati in un'ampia gamma di destinazioni, come Cloud SQL e Spanner. Puoi anche utilizzare Datastream per utilizzare il flusso di eventi direttamente da Cloud Storage, così da creare architetture basate su eventi. Datastream supporta le origini Oracle, MySQL, SQL Server e PostgreSQL (incluso AlloyDB per PostgreSQL).

I vantaggi di Datastream includono:

  • Configurazione immediata delle pipeline ELT (Extract, Load, Transform) per la replica dei dati a bassa latenza e consente di ottenere insight quasi in tempo reale in BigQuery.
  • Essendo serverless, non ci sono risorse di cui eseguire il provisioning o gestire e il servizio fa lo scale up e lo scale down automaticamente, se necessario, con tempi di inattività minimi.
  • Esperienze di configurazione e monitoraggio facili da usare che raggiungono un time-to-value rapidissimo.
  • Integrazione con il meglio dei servizi dati Google Cloud per l'integrazione dei dati in Datastream, Dataflow, Pub/Sub, BigQuery e altri.
  • Sincronizzazione e unificazione di flussi di dati tra database e applicazioni eterogenei.
  • Sicurezza, con opzioni di connettività privata e la sicurezza che ci si aspetta da Google Cloud.
  • Essere precisi e affidabili, con report sullo stato trasparenti e una solida flessibilità di elaborazione di fronte alle modifiche ai dati e allo schema.
  • Supportare diversi casi d'uso, tra cui analisi, replica dei database e sincronizzazione per migrazioni e configurazioni di cloud ibrido, nonché per la creazione di architetture basate su eventi.

Casi d'uso

Le funzionalità di elaborazione in modalità flusso di Datastream consentono una varietà di casi d'uso:

  • Replica e sincronizzazione dei dati all'interno dell'organizzazione con latenza minima

    Puoi sincronizzare i dati in applicazioni e database eterogenei in modo affidabile, con bassa latenza e con un impatto minimo sulle prestazioni dell'origine. Sfrutta la potenza dei flussi di dati per analisi, replica dei database, migrazione al cloud e architetture basate su eventi in ambienti ibridi.

  • Fai lo scale up o lo scale down con un'architettura serverless senza problemi

    Inizia a lavorare rapidamente con un servizio serverless e facile da usare, che offre una scalabilità perfetta man mano che i volumi di dati cambiano. Concentrati sull'estrazione di insight aggiornati dai dati e sulla risposta a problemi ad alta priorità, anziché gestire l'infrastruttura, l'ottimizzazione delle prestazioni o il provisioning delle risorse.

  • Integrazione con la suite di integrazione dei dati di Google Cloud

    Connetti i dati di tutta la tua organizzazione con la suite di prodotti di integrazione dei dati di Google Cloud. Datastream sfrutta i modelli Dataflow per caricare i dati in BigQuery, Spanner e Cloud SQL.

Elementi dell'esperienza

Datastream è composto da tre elementi principali:

  • Le configurazioni di connettività privata consentono a Datastream di comunicare con un'origine dati su una rete privata (internamente in Google Cloud o con origini esterne connesse tramite VPN o Interconnect). Questa comunicazione avviene attraverso una connessione in peering Virtual Private Cloud (VPC).
  • I profili di connessione rappresentano le informazioni di connettività sia verso un'origine che verso una destinazione. Queste informazioni verranno utilizzate da uno stream.
  • I flussi utilizzano le informazioni nei profili di connessione per trasferire i dati di CDC e di backfill dall'origine alla destinazione.