Panoramica della replica

La replica di Cloud Data Fusion consente di creare copie i tuoi dati in modo continuo e in tempo reale da datastore operativi, come SQL Server e MySQL in BigQuery.

Per utilizzare la replica, scegli uno dei seguenti modi:

  • Crea una nuova istanza di Cloud Data Fusion e aggiungi il metodo app di replica.
  • Aggiungi l'app Replicazione a un'istanza esistente.

Ecco alcuni vantaggi:

  • Identifica incompatibilità dello schema, problemi di connettività e funzionalità mancanti prima di avviare la replica, quindi fornisce azioni correttive.

  • Utilizzo dei dati operativi più recenti in tempo reale per l'analisi in BigQuery. Utilizza la replica basata su log direttamente in BigQuery da Microsoft SQL Server (utilizzando SQL Server CDC) e MySQL (utilizzando MySQL Binary Log).

  • Change Data Capture (CDC) che fornisce una rappresentazione dei dati che sono cambiati in un flusso, consentendo al calcolo e all'elaborazione di concentrarsi in modo specifico i record modificati più di recente. In questo modo riduci al minimo gli addebiti per i dati in uscita su sistemi di produzione sensibili.

  • Scalabilità aziendale a supporto di database transazionali di volumi elevati di dati a BigQuery siano supportati senza tempi di inattività replica degli snapshot, per preparare il data warehouse al consumo di modifiche senza interruzioni. Al termine dello snapshot iniziale, viene avviata in tempo reale la replica continua delle modifiche con un elevato throughput.

  • Le dashboard che ti aiutano a ottenere informazioni in tempo reale sul rendimento della replica. È utile per identificare i colli di bottiglia e monitorare gli SLA (accordi sul livello del servizio) per la consegna dei dati.

  • Incluso il supporto della residenza dei dati, delle chiavi di crittografia gestite dal cliente (CMEK) e dei Controlli di servizio VPC. Integrazione di Cloud Data Fusion all'interno Google Cloud garantisce i massimi livelli di sicurezza aziendale e vengono osservate le informazioni sulla privacy mentre rende disponibili i dati più recenti. warehouse per l'analisi.

Quando la replica viene eseguita, ti vengono addebitati i costi e ti vengono addebitati costi di elaborazione per BigQuery. Per ottimizzare questi costi, consigliamo vivamente di utilizzare BigQuery della tariffa di base.

Per ulteriori informazioni, consulta la pagina Prezzi di Cloud Data Fusion.

Entità di replica

Entità Descrizione
Replica La replica è una funzionalità di Cloud Data Fusion che consente di replicare continuamente i dati a bassa latenza dai datastore operativi ai data warehouse analitici. Crea un job di replica configurando un 'origine e una destinazione con trasformazioni facoltative.
Origine Legge gli eventi di modifica del database, della tabella o della colonna e li rende disponibili per un'ulteriore elaborazione in un job di replica. R il job di replica contiene una fonte, che si basa su una soluzione di acquisizione delle modifiche per fornire le modifiche. Per un database possono essere presenti più origini, ciascuna con una soluzione di rilevamento delle modifiche diversa. Un'origine è un modulo collegabile creato utilizzando il plug-in dell'architettura CDAP. Se un'origine non è disponibile per soddisfare le tue esigenze, puoi crearne uno tuo implementando l'interfaccia di origine e poi caricarlo su CDAP o Cloud Data Fusion.
Target Scrive le modifiche ricevute da un'origine in un database di destinazione. Un job di replica contiene una destinazione. Un target è un modulo innestato creato utilizzando il plug-in dell'architettura CDAP. Se non è disponibile un target per soddisfare le tue esigenze, puoi crearne una personalizzata implementando l'interfaccia di destinazione, quindi su CDAP o Cloud Data Fusion.
Proprietà sorgente Configura l'origine, inclusi i dettagli di connessione, i nomi del database e delle tabelle di origine, le credenziali e altre proprietà.
Proprietà target Configura la destinazione, inclusi i dettagli della connessione, nomi di database e tabelle di destinazione, credenziali e altre proprietà.
Proprietà job di replica Configura il job di replica, comprese le soglie di errore, aree di gestione temporanea, notifiche e impostazioni di convalida.
Bozza Un job di replica salvato e parzialmente completato. Quando la definizione del job di replica è completa, può essere avviata.
Eventi Gli eventi di modifica nell'origine devono essere replicati nella destinazione. Gli eventi includeranno inserimenti, aggiornamenti, eliminazioni e modifiche DDL (Data Definition Language).
Inserisci Aggiunta di nuovi record nell'origine.
Aggiorna Aggiornamento dei record esistenti nell'origine.
Elimina Rimozione dei record esistenti nell'origine.
Modifica DDL Un evento che contiene una modifica dello schema, ad esempio una modifica del tipo o del nome dei dati.
Log I log operativi di un job di replica.
Dettagli del job di replica Una pagina dei dettagli con le informazioni sul job di replica, ad esempio il suo stato corrente, le metriche operative, la visualizzazione storica nel tempo, i risultati della convalida e la relativa configurazione.
Dashboard Una pagina che elenca lo stato di tutte le attività di Change Data Capture (CDC), tra cui velocità effettiva, latenza, tassi di errore e convalida che consentono di analizzare i dati e visualizzare i risultati.

Azioni

Azioni Descrizione
Esegui il deployment Crea un nuovo job di replica seguendo un'interfaccia web per specificare un'origine, una destinazione e la relativa configurazione.
Salva Salvataggio di un job di replica creato parzialmente da riprendere la creazione in un secondo momento.
Elimina Eliminazione di un job di replica esistente in corso... È possibile eliminare solo le pipeline arrestate.
Inizia Avvio di un job di replica. Se ci sono modifiche da elaborare, il job di replica entra nello stato "active"; in caso contrario, entra nello stato "waiting".
Interrompi Arresto di un job di replica. Il job di replica interrompe l'elaborazione delle modifiche dall'origine.
Visualizza i log Visualizzazione dei log di un job di replica per il debug o altre analisi.
Cerca Ricerca di un job di replica per nome, descrizione, o altri metadati del job di replica.
Valutazione Valutare l'impatto della replica prima di avviarla. La valutazione di un job di replica genera un report di valutazione che segnala le incompatibilità dello schema e le funzionalità mancanti.

Monitoraggio

Stati del replicatore Descrizione
Deployment eseguito Il job di replica è stato disegnato, ma non è stato avviato. In questo stato, un job di replica non replica gli eventi.
In fase di avvio Il job di replica è in fase di inizializzazione e non è pronto per replicare le modifiche.
In esecuzione Il job di replica è stato avviato ed è in fase di replica modifiche.
In fase di arresto Il job di replica è in fase di arresto.
Interrotta Il job di replica è stato interrotto.
Non riuscito Il job di replica non è riuscito a causa di errori fatali.

Stati tabella

Concetto Descrizione
In fase di creazione dello snapshot Il job di replica sta eseguendo uno snapshot dell'attuale della tabella prima di replicare le modifiche.
In replica Il job di replica sta replicando le modifiche dall'origine nella tabella di destinazione.
In errore Il job di replica non riesce a replicare le modifiche dalla tabella di origine a causa di un errore.

Metriche

Concetto Descrizione
Inserti Il numero di inserimenti applicati al target nel periodo di tempo selezionato.
Aggiornamenti Il numero di aggiornamenti applicati al target nell'orario selezionato punto.
Eliminazioni Il numero di eliminazioni applicate al target nel periodo di tempo selezionato punto.
DDL Il numero di modifiche DDL applicate al target nell'intervallo di tempo selezionato punto.
Velocità effettiva Il numero di eventi e il numero di byte replicati nella destinazione nel periodo di tempo selezionato.
Latenza La latenza con cui i dati vengono replicati nella destinazione nell'intervallo di date selezionato periodo di tempo.

Componenti

Componente Descrizione
Servizio Supervisiona l'orchestrazione end-to-end dei job di replica e fornisce funzionalità per progettare, implementare, gestire e monitorare i job di replica. Viene eseguito all'interno Progetto tenant di Cloud Data Fusion (il progetto tenant è nascosto da parte dell'utente). Il relativo stato viene visualizzato nella pagina **Amministrazione di sistema** dell'interfaccia web di Cloud Data Fusion.
Gestione dello stato Il servizio gestisce lo stato di ogni job di replica in un bucket Cloud Storage nel progetto del cliente. Il bucket può essere configurato al momento della creazione del job di replica. Archivia e lo stato di replica di ciascuna di replica.
Esecuzione I cluster Dataproc forniscono l'ambiente di esecuzione dei job di replica eseguiti nel tuo progetto. i job di replica vengono eseguiti Worker CDAP. Le dimensioni e le caratteristiche dell'esecuzione sono configurati con profili Compute Engine.
Database di origine Il tuo database operativo di produzione che si replica nella tua destinazione per configurare un database. Questo database può trovarsi on-premise in Google Cloud. Cloud Data Fusion La replica supporta MySQL, Microsoft SQL Server e i database di origine Oracle.
Cambia soluzione di monitoraggio Invece di essere eseguito su un agente che funziona sul database di origine, Cloud Data Fusion si basa su una soluzione di monitoraggio delle modifiche per leggere le modifiche nel database di origine. La soluzione può essere un componente il database di origine o un database di terze parti con licenza separata soluzione. Nel secondo caso, la soluzione di monitoraggio delle modifiche on-premise, in co-location con il database di origine o in Google Cloud. Ogni origine deve essere associata a una modifica soluzione di monitoraggio di Google Cloud.
  1. SQL Server
    • Soluzione supportata: CDC di SQL Server (tabelle di monitoraggio delle modifiche)
    • Software aggiuntivo: no
    • Licenza/costo: N/D
    • Commenti: disponibile per SQL Server 2016 e versioni successive
  2. MySQL
    • Soluzione supportata: Log binario MySQL
    • Software aggiuntivo: no
    • Licenza/costo: N/D
    • Commenti: N/A
  3. Oracle
Database di destinazione La località di destinazione per la replica e l'analisi. Cloud Data Fusion supporta il database di destinazione BigQuery.
Autenticazione I meccanismi di autenticazione variano in base al database di origine o al software di monitoraggio delle modifiche. Quando si utilizzano le funzionalità integrate di come SQL Server e MySQL, gli accessi ai database sono utilizzati autenticazione. Quando utilizzi un software di monitoraggio delle modifiche, viene utilizzato il meccanismo di autenticazione del software.

Connettività

La tabella seguente descrive le connessioni di rete necessarie per Replica e meccanismi di sicurezza utilizzati.

Da A Facoltativo Protocollo Rete Sicurezza di autenticazione Finalità
Servizio (progetto tenant) Database di origine Dipende dall'origine della replica. JDBC per annunci diretti una connessione al database. Peering + Regole firewall + VPN/Interconnessione + Router Accesso DB Occorre al momento della progettazione, non dell'esecuzione. Funzioni: elenco di tabelle, valutazione (passaggi facoltativi; la replica può continuare senza di essi)
Servizio (progetto tenant) Cloud Storage No API Cloud VPC-SC IAM Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto) DB di origine No Dipende dalla fonte. JDBC per la connessione diretta al database. Peering + Regole firewall + VPN/Interconnessione + Router Accesso al database Obbligatorio al momento dell'esecuzione per leggere le modifiche dal database di origine da replicare al target
Dataproc (il tuo progetto) Cloud Storage No API Cloud VPC-SC IAM Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto) BigQuery No API Cloud VPC-SC IAM Necessario al momento dell'esecuzione per applicare le modifiche dal database di origine a il target

Passaggi successivi