Replica

Cloud Data Fusion Replication ti consente di replicare i dati in modo continuo e in tempo reale da datastore operativi, come SQL Server e MySQL, in BigQuery.

Per utilizzare Replication, puoi creare una nuova istanza di Cloud Data Fusion e aggiungere l'app Replication o, in alternativa, aggiungerla a un'istanza esistente. Guarda i tutorial per MySQL, SQL Server e Oracle.

Ecco alcuni dei vantaggi di Meet:

  • Un'interfaccia semplice per consentire a sviluppatori ETL e analisti di dati di configurare i job di replica.

  • Aiuta a identificare le incompatibilità degli schemi, i problemi di connettività e le funzionalità mancanti prima di avviare la replica, quindi fornisce azioni correttive.

  • Puoi utilizzare i dati operativi più recenti in tempo reale per le analisi in BigQuery. Utilizzi la replica basata su log direttamente in BigQuery da Microsoft SQL Server (con CDC di SQL Server) e MySQL (con Log binario MySQL).

  • La tecnologia CDC (Change Data Capture) fornisce una rappresentazione dei dati modificati in un flusso, consentendo di calcolare ed elaborare

  • Scalabilità aziendale per supportare database transazionali a volumi elevati, i caricamenti iniziali di dati in BigQuery sono supportati con replica snapshot senza tempo di inattività, per rendere il data warehouse pronto per l'utilizzo continuo di modifiche. Una volta completato lo snapshot iniziale, la replica continua e ad alta velocità effettiva delle modifiche inizia quindi in tempo reale.

  • Le dashboard ti aiutano a ottenere insight in tempo reale sulle prestazioni della replica. Questo è utile per identificare i colli di bottiglia e monitorare gli SLA (accordo sul livello del servizio) dei dati.

  • Include il supporto per Residency di dati, chiavi di crittografia gestite dal cliente (CMEK) e controlli di servizio VPC. L'integrazione di Cloud Data Fusion all'interno di Google Cloud garantisce che i più alti livelli di sicurezza e privacy aziendali vengano rispettati, rendendo disponibili i dati più recenti nel tuo data warehouse per l'analisi.

Quando viene eseguita la replica, ti viene addebitato il cluster Dataproc e ti vengono addebitati i costi di elaborazione per BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare il prezzo a costo fisso di BigQuery.

Per ulteriori informazioni, consulta la pagina dei prezzi di Cloud Data Fusion.

Entità di replica

Entità Descrizione
Replica La replica è una funzionalità di Cloud Data Fusion che rende possibile la replica continua dei dati a bassa latenza da datastore operativi in data warehouse analitici. Crea un job di replica configurando un'origine e una destinazione con trasformazioni facoltative.
Origine Legge gli eventi di modifica del database, della tabella o della colonna e li rende disponibili per un'ulteriore elaborazione in un job di replica. Un job di replica contiene un'origine, che si basa su una soluzione di acquisizione delle modifiche per fornire le modifiche. Possono esserci più origini per un database, ognuna con una soluzione di acquisizione dei cambiamenti diversa. Un'origine è un modulo pluggable creato utilizzando l'architettura di plug-in CDAP. Se un'origine non è disponibile per soddisfare le tue esigenze, puoi crearne una implementandola nell'interfaccia e quindi caricarla su CDAP o Cloud Data Fusion.
Target Scrive le modifiche ricevute da un'origine in un database di destinazione. Un job di replica contiene una destinazione. Una destinazione è un modulo pluggable creato utilizzando l'architettura di plug-in CDAP. Se un target non è disponibile per soddisfare le tue esigenze, puoi crearne uno personalizzato implementando l'interfaccia di destinazione e caricandolo su CDAP o Cloud Data Fusion.
Proprietà sorgente Configura l'origine, inclusi i dettagli della connessione, i nomi delle tabelle e dei database di origine, le credenziali e altre proprietà.
Proprietà target Configura la destinazione, inclusi i dettagli della connessione, i nomi dei database e delle tabelle di destinazione, le credenziali e altre proprietà.
Proprietà del job di replica Configura il job di replica, comprese le soglie di errore, le aree temporanee, le notifiche e le impostazioni di convalida.
Bozza Un job di replica salvato e parzialmente completato. Una volta completata, la definizione del job di replica può essere avviata.
Eventi Modifica gli eventi nell'origine da replicare nella destinazione. Gli eventi includono inserimenti, aggiornamenti, eliminazioni e modifiche in DDL ( Data Definition Language).
Inserisci Aggiunta di nuovi record nell'origine.
Aggiornamento Aggiorna i record esistenti nell'origine.
Elimina Rimozione dei record esistenti nell'origine.
DDL cambia Un evento contenente una modifica dello schema, ad esempio una modifica al tipo di dati o al nome.
Log I log operativi di un job di replica.
Dettagli job di replica Una pagina dei dettagli con informazioni sul job di replica, ad esempio stato attuale, metriche operative, visualizzazione storica nel tempo, risultati di convalida e relativa configurazione.
Dashboard Una pagina che elenca lo stato di tutte le attività di acquisizione dei dati modificate, inclusi velocità effettiva, latenza, percentuali di errore e risultati della convalida.

Azioni

Azioni Descrizione
Deployment Creazione di un nuovo job di replica seguendo un flusso UI per specificare un'origine, un target e la relativa configurazione.
Salva Salvataggio di un job di replica parzialmente creato per riprendere la creazione in un secondo momento.
Elimina Eliminazione di un job di replica esistente. Possono essere eliminate solo le pipeline arrestate.
Inizio Avvio di un job di replica. Il job di replica entra nello stato attivo se ci sono modifiche da elaborare, altrimenti entra nello stato di attesa.
Arresta Arresto di un job di replica. Il job di replica interrompe l'elaborazione delle modifiche dall'origine.
Visualizza i log Visualizzazione dei log di un job di replica per debug o altre analisi.
Ricerca Ricerca di un job di replica in base al nome, alla descrizione o agli altri metadati del job di replica.
Valutazione Valutare l'impatto della replica prima di avviare la replica. La valutazione di un job di replica genera un report di valutazione che segnala le incompatibilità degli schemi e le funzionalità mancanti.

Monitoraggio

Stati replicanti Descrizione
Deployment eseguito Viene eseguito il deployment del job di replica, ma non viene avviato. In questo stato, il job di replica non replica gli eventi.
In fase di avvio Il job di replica è in fase di inizializzazione e non è pronto per replicare le modifiche.
In esecuzione Il job di replica è avviato e sta replicando le modifiche.
Fase di arresto Arresto del job di replica in corso.
Arrestata Il job di replica è arrestato.
Errore Job di replica non riuscito a causa di errori irreversibili.

Stati della tabella

Concetto Descrizione
Creazione di snapshot Il job di replica acquisisce uno snapshot dello stato corrente della tabella prima di replicare le modifiche.
In fase di replica Il job di replica sta replicando le modifiche dalla tabella di origine alla tabella di destinazione.
Non riuscito Il job di replica non riesce a replicare le modifiche dalla tabella di origine a causa di un errore.

Metriche

Concetto Descrizione
Inserti Il numero di inserimenti applicati alla destinazione nel periodo di tempo selezionato.
Aggiornamenti Il numero di aggiornamenti applicati alla destinazione nel periodo di tempo selezionato.
Eliminazioni Il numero di eliminazioni applicate alla destinazione nel periodo di tempo selezionato.
DDL Il numero di modifiche DDL applicate alla destinazione nel periodo di tempo selezionato.
Velocità effettiva Il numero di eventi e il numero di byte replicati nella destinazione nel periodo di tempo selezionato.
Latenza La latenza con cui i dati vengono replicati nella destinazione nel periodo di tempo selezionato.

Componenti

Componente Descrizione
Servizio Supervisiona l'orchestrazione end-to-end dei job di replica e fornisce funzionalità per la progettazione, il deployment, la gestione e il monitoraggio dei job di replica. Viene eseguito all'interno del progetto tenant di Cloud Data Fusion (il progetto tenant è nascosto all'utente). Il suo stato viene visualizzato nella pagina AMMINISTRATORE DI SISTEMA della UI di Cloud Data Fusion.
Gestione statale Il servizio gestisce lo stato di ogni job di replica in un bucket Cloud Storage nel progetto del cliente. Il bucket può essere configurato quando viene creato il job di replica. Archivia gli offset attuali e lo stato di replica di ogni job di replica.
Esecuzione I cluster Dataproc forniscono l'ambiente di esecuzione dei job di replica, eseguiti nel tuo progetto. I job di replica vengono eseguiti utilizzando i worker CDAP. Le dimensioni e le caratteristiche dell'ambiente di esecuzione sono configurate con i profili di Compute Engine.
Database di origine Il database operativo di produzione che viene replicato nel database di destinazione. Questo database può trovarsi on-premise o su Google Cloud. Cloud Data Fusion Replication supporta MySQL, Microsoft SQL Server e database di origine Oracle.
Cambia soluzione di monitoraggio Anziché eseguire su un agente in esecuzione sul database di origine, Cloud Data Fusion si affida a una soluzione di monitoraggio delle modifiche per leggere le modifiche nel database di origine. La soluzione può essere un componente del database di origine o una soluzione di terze parti con licenza separata. Nel secondo caso, la soluzione di monitoraggio delle modifiche viene eseguita on-premise, collocata insieme al database di origine o su Google Cloud. Ogni origine deve essere associata a una soluzione di monitoraggio delle modifiche.
  1. SQL Server
    • Soluzione supportata: CDC di SQL Server (tabelle di monitoraggio delle modifiche)
    • Software aggiuntivo: no
    • Licenza/costo: N/D
    • Commenti: disponibile SQL Server 2016 e versioni successive
  2. MySQL
    • Soluzione supportata: log binario MySQL
    • Software aggiuntivo: no
    • Licenza/costo: N/D
    • Commenti: N/D
  3. Oracle
Database di destinazione La località di destinazione per la replica e l'analisi. Cloud Data Fusion supporta il database di destinazione BigQuery.
Autenticazione I meccanismi di autenticazione variano in base al database di origine o al software di monitoraggio delle modifiche. Quando utilizzi le funzionalità integrate di database di origine, come SQL Server e MySQL, vengono utilizzati gli accessi ai database per l'autenticazione. Quando utilizzi un software di monitoraggio delle modifiche, viene utilizzato il meccanismo di autenticazione.

Connettività

La tabella seguente descrive le connessioni di rete necessarie per la replica e i meccanismi di sicurezza utilizzati.

Da To Facoltativo Protocollo Rete Sicurezza di autenticazione Scopo
Servizio (progetto tenant) DB di origine Dipende dall'origine della replica. JDBC per la connessione diretta al database. Peering + regole firewall + VPN/Interconnect + router Accesso a DB Necessari al momento della progettazione, non dell'esecuzione, tempo Funzioni: elenco delle tabelle, test (passaggi facoltativi; la replica può continuare senza i medesimi)
Servizio (progetto tenant) Cloud Storage No API Cloud VPC-SC IAM Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto) DB di origine No Dipende dall'origine. JDBC per la connessione DB diretta. Peering + regole firewall + VPN/Interconnect + router Accesso a DB Necessaria al momento dell'esecuzione, per la lettura delle modifiche dal database di origine da replicare nel target
Dataproc (il tuo progetto) Cloud Storage No API Cloud VPC-SC IAM Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto) BigQuery No API Cloud VPC-SC IAM Necessaria al momento dell'esecuzione per applicare le modifiche dal database di origine al target

Passaggi successivi