Comportamento e casi d'uso
Datastream consente agli utenti di importare i dati di origine da un sistema di gestione di database relazionali (RDBMS) e da altre origini in destinazioni come BigQuery, tabelle BigLake Iceberg e Cloud Storage quasi in tempo reale. Ciò consente di utilizzare i dati per casi d'uso downstream, ad esempio il caricamento in BigQuery per il data warehousing e l'analisi o l'esecuzione di job Spark sui dati per casi d'uso di intelligenza artificiale e machine learning.
Concetti
Questa sezione descrive i concetti principali che devi comprendere per utilizzare Datastream in modo efficace.
Change Data Capture (CDC)
Change Data Capture (CDC) è un insieme di pattern di progettazione del software utilizzati per determinare (e monitorare) i dati che sono stati modificati, in modo che sia possibile intervenire utilizzando i dati modificati. CDC è anche un approccio all'integrazione dei dati basato sull'identificazione, l'acquisizione e la distribuzione delle modifiche apportate alle origini dati aziendali.
Event Sourcing
Introdotto nel 2005, l'event sourcing è un pattern di progettazione in cui ogni modifica allo stato di un'applicazione viene acquisita in un oggetto evento. Utilizzando l'event sourcing, un'applicazione può ricostruire il proprio stato, eseguire il recupero point-in-time (elaborando l'evento fino a quel punto), ricalcolare lo stato in caso di modifica della logica o abilitare la progettazione Command Query Responsibility Segregation (CQRS). Con l'evoluzione degli strumenti per l'elaborazione degli eventi in tempo reale, molte applicazioni stanno passando al modello di event sourcing. Storicamente, i database transazionali sono sempre stati orientati agli eventi, a causa dei requisiti di atomicità, coerenza, isolamento e durabilità (ACID).
Database transazionali
In un database transazionale, l'insieme di operazioni che il database eseguirà viene solitamente scritto in un log write-ahead (WAL) prima che vengano eseguite operazioni sul motore di archiviazione. Un'operazione viene considerata riuscita dopo essere stata eseguita sul motore di archiviazione e registrata nel WAL. L'utilizzo di WAL consente atomicità e durabilità, oltre a una replica ad alta fedeltà del database. Alcuni database scrivono nel log l'operazione esatta che verrà eseguita a livello di archiviazione (ad esempio write 0x41 on location 20
), quindi queste azioni possono essere replicate (o ripetute) solo sullo stesso motore di archiviazione. Altri database registreranno un'istruzione logica (o riga) completa che può essere eseguita nuovamente su un motore di archiviazione diverso.
Eventi e flussi di dati
Datastream importa molti dati quasi in tempo reale da varie origini e li rende disponibili per l'utilizzo nella destinazione. L'unità di dati archiviata da Datastream è un evento. Un flusso rappresenta l'inserimento continuo di eventi da un'origine e la loro scrittura in una destinazione.
Tipi unificati
Le origini dati hanno i propri tipi, alcuni specifici del database stesso e altri generici e condivisi tra i database. Poiché esistono molte origini diverse che generano stream in una destinazione unificata, deve esistere un modo standard e unificato per rappresentare il tipo di origine originale in tutte le origini. Il tipo unificato è un modo comune e senza perdita per rappresentare i tipi di dati in tutte le origini, in modo che possano essere utilizzati in modo coerente. I tipi unificati supportati da Datastream rappresenteranno il superset di tutti i tipi normalizzati in tutti i sistemi di origine supportati, in modo che tutti i tipi possano essere supportati senza perdita di dati.
Contesto entità
Datastream ha cinque entità:
- Le configurazioni di connettività privata consentono a Datastream di comunicare con le origini dati tramite una connessione di rete privata e sicura. Questa comunicazione avviene tramite il peering VPC (Virtual Private Cloud).
- I profili di connessione rappresentano le informazioni di connettività a un'origine o a un database di destinazione specifico.
- Gli stream rappresentano una coppia di profili di connessione di origine e destinazione, insieme alle impostazioni specifiche dello stream.
- Gli oggetti rappresentano una parte secondaria di uno stream. Ad esempio, uno stream di un database ha un oggetto dati per ogni tabella di cui viene eseguito lo streaming.
- Gli eventi rappresentano ogni modifica del Data Manipulation Language (DML) per un determinato oggetto.
Dopo aver creato una configurazione di connettività privata, puoi connetterti alle origini ospitate in Google Cloud o altrove tramite un canale di comunicazione privato. La connettività privata è facoltativa. Datastream supporta anche altre modalità di connettività sulle reti pubbliche.
Dopo aver creato un profilo di connessione per un'origine e una destinazione, puoi creare flussi che utilizzano le informazioni archiviate nei profili di connessione per trasferire i dati dall'origine alla destinazione.
Dopo aver creato uno stream, Datastream si connette direttamente all'origine, utilizza i contenuti, quindi elabora e scrive gli eventi nella destinazione in base alla struttura dell'evento.
Le configurazioni di connettività privata e i profili di connessione possono essere gestiti separatamente dai flussi per il riutilizzo.
Funzionalità
Le funzionalità di Datastream includono:
- Serverless:puoi configurare un flusso e i dati iniziano a essere trasferiti. Non sono previsti costi generali per installazione, allocazione delle risorse o manutenzione. Man mano che i volumi di dati crescono e si riducono, le funzionalità di scalabilità automatica di Datastream allocano risorse per mantenere i dati in movimento quasi in tempo reale e automaticamente.
- Schema dei tipi unificati basato su Avro:Datastream consente l'elaborazione indipendente dall'origine convertendo tutti i tipi di dati specifici dell'origine in uno schema dei tipi Datastream unificato, basato sui tipi Avro.
- Trasmetti in streaming i dati storici e CDC: Datastream trasmette in streaming i dati di origine storici e CDC quasi in tempo reale, contemporaneamente.
CDC Oracle senza licenze aggiuntive: Datastream fornisce lo streaming CDC basato su LogMiner da qualsiasi versione di origine Oracle 11.2g e successive, senza la necessità di pagare licenze aggiuntive o installazioni di software.
Destinazione BigQuery:le modifiche all'origine vengono replicate continuamente nelle tabelle BigQuery quasi in tempo reale. I dati in BigQuery sono disponibili quasi immediatamente per l'analisi.
Destinazione Cloud Storage:i dati CDC vengono scritti continuamente in file Avro o JSON autodescrittivi in Cloud Storage. Queste informazioni sono utilizzabili per l'elaborazione aggiuntiva, direttamente sul posto o tramite caricamento a valle in un'altra destinazione come Spanner.
Casi d'uso
Esistono tre scenari principali per l'utilizzo di Datastream:
- Integrazione dei dati: i flussi di dati provenienti da database e servizi cloud Software-as-a-Service (SaaS) possono alimentare una pipeline di integrazione dei dati quasi in tempo reale caricando i dati in BigQuery.
- Analisi dei flussi di dati: le modifiche ai database vengono importate in pipeline di streaming come Dataflow per il rilevamento di frodi, l'elaborazione di eventi di sicurezza e il rilevamento di anomalie.
- Disponibilità quasi in tempo reale delle modifiche ai dati: la disponibilità quasi in tempo reale delle modifiche ai dati consente alle applicazioni di intelligenza artificiale e machine learning di prevenire l'abbandono o aumentare il coinvolgimento utilizzando iniziative di marketing o fornendo feedback ai sistemi di produzione.
Panoramica comportamento
Datastream consente ai clienti di trasmettere in streaming le modifiche in corso da più origini dati direttamente in Google Cloud.
Fonti
- Per poter utilizzare un'origine con Datastream, è necessario eseguire la configurazione, inclusi l'autenticazione e le opzioni di configurazione aggiuntive.
- Ogni origine genera eventi che riflettono tutte le modifiche del Data Manipulation Language (DML).
- Ogni flusso può eseguire il backfill dei dati storici e trasmettere in streaming le modifiche in corso nella destinazione.
Destinazioni
Datastream supporta BigQuery e Cloud Storage come destinazioni. Quando viene creato lo stream, vengono definiti i set di dati BigQuery o il bucket Cloud Storage selezionati.
Distribuzione di eventi
- L'ordine degli eventi non è garantito. I metadati evento includono informazioni che possono essere utilizzate per ordinare gli eventi.
- La distribuzione degli eventi si verifica almeno una volta. I metadati dell'evento includono dati che possono essere utilizzati per rimuovere eventuali dati duplicati nella destinazione.
- La dimensione dell'evento è limitata a 20 MB per evento per le destinazioni BigQuery e a 100 MB per evento per le destinazioni Cloud Storage.
Per saperne di più sugli eventi, consulta Eventi e flussi di dati.
Alta affidabilità e disaster recovery
Questa sezione contiene informazioni su come Datastream gestisce gli scenari associati a disponibilità elevata e ripristino di emergenza.
Alta disponibilità:Datastream è un servizio regionale in esecuzione su più zone in ogni regione. Un errore in una singola zona di una regione non influisce sulla disponibilità o sulla qualità del servizio in altre zone.
Disaster recovery: se si verifica un errore in una regione, tutti gli stream in esecuzione in quella regione non saranno disponibili per la durata dell'interruzione. Una volta risolto il problema, Datastream riprenderà esattamente da dove aveva interrotto l'operazione e tutti i dati che non sono stati scritti nella destinazione verranno recuperati di nuovo dall'origine. In questo caso, i duplicati dei dati potrebbero risiedere nella destinazione. Per saperne di più sulla rimozione dei dati duplicati, consulta la sezione Invio degli eventi.
Dati iniziali e dati CDC
Poiché le origini dati contengono dati precedenti al momento della connessione dell'origine a uno stream (dati storici), Datastream genera eventi sia dai dati storici sia dalle modifiche ai dati che si verificano in tempo reale.
Per garantire un accesso rapido ai dati, i dati storici e le modifiche ai dati in tempo reale vengono replicati contemporaneamente nella destinazione. I metadati dell'evento indicano se l'evento proviene dal backfill o dalla CDC.
Passaggi successivi
- Scopri di più su Datastream.
- Scopri di più su eventi e flussi di dati.
- Scopri di più sulle mappature dei tipi unificati.
- Scopri di più sulle origini supportate da Datastream.
- Scopri di più sulle destinazioni supportate da Datastream.
- Scopri come creare configurazioni di connettività privata, profili di connessione e stream.