Replica

La replica di Cloud Data Fusion consente di replicare i dati in modo continuo e in tempo reale da datastore operativi, come SQL Server e MySQL, in BigQuery.

Per utilizzare la replica, scegli uno dei seguenti modi:

  • Crea una nuova istanza di Cloud Data Fusion e aggiungi l'app di replica.
  • Aggiungere l'app di replica a un'istanza esistente.

Consulta i tutorial per MySQL, SQL Server e Oracle.

Ecco alcuni vantaggi:

  • Un'interfaccia semplice per sviluppatori ETL e analisti di dati per configurare job di replica.

  • Aiuta a identificare le incompatibilità dello schema, i problemi di connettività e le funzionalità mancanti prima di avviare la replica, quindi fornisce azioni correttive.

  • Puoi utilizzare i dati operativi più recenti in tempo reale per l'analisi all'interno di BigQuery. Puoi utilizzare la replica basata su log direttamente in BigQuery da Microsoft SQL Server (con la CDC di SQL Server) e MySQL (mediante il Log binario di MySQL).

  • La Change Data Capture (CDC) fornisce una rappresentazione dei dati che hanno subito modifiche in un flusso, consentendo ai calcoli e all'elaborazione di concentrarsi in modo specifico sui record modificati più di recente. Questo riduce al minimo gli addebiti per i dati in uscita sui sistemi di produzione sensibili.

  • Scalabilità aziendale per supportare database transazionali con volumi elevati. I carichi iniziali di dati in BigQuery sono supportati con replica di snapshot senza tempi di inattività, in modo che il data warehouse sia pronto per l'utilizzo continuo di modifiche. Una volta completato lo snapshot iniziale, la velocità effettiva elevata, la replica continua delle modifiche inizia in tempo reale.

  • Le dashboard ti aiutano a ottenere insight in tempo reale sulle prestazioni di replica. È utile per identificare i colli di bottiglia e monitorare gli SLA (accordi sul livello del servizio) relativi alla distribuzione dei dati.

  • Include il supporto per Data Residency, chiavi di crittografia gestite dal cliente (CMEK) e Controlli di servizio VPC. L'integrazione di Cloud Data Fusion in Google Cloud garantisce i massimi livelli di sicurezza e privacy aziendale, rendendo al contempo disponibili i dati più recenti nel tuo data warehouse per l'analisi.

Quando viene eseguita la replica, ti viene addebitato il costo del cluster Dataproc e i costi di elaborazione per BigQuery. Per ottimizzare questi costi, consigliamo vivamente di utilizzare il sistema con tariffe a costo fisso di BigQuery.

Per ulteriori informazioni, consulta la pagina dei prezzi di Cloud Data Fusion.

Entità di replica

Entità Descrizione
Replica La replica è una funzionalità di Cloud Data Fusion che consente di replicare continuamente i dati a bassa latenza dai datastore operativi ai data warehouse analitici. Crea un job di replica configurando un'origine e una destinazione con trasformazioni facoltative.
Origine Legge gli eventi di modifica di database, tabelle o colonne e li rende disponibili per l'ulteriore elaborazione in un job di replica. Un job di replica contiene un'origine, che si basa su una soluzione di acquisizione delle modifiche per fornire le modifiche. Un database può avere più origini, ognuna con una soluzione di acquisizione delle modifiche diversa. Un'origine è un modulo modulare creato utilizzando l'architettura dei plug-in di CDAP. Se un'origine non è disponibile per soddisfare le tue esigenze, puoi crearne una implementando l'interfaccia di origine, quindi caricarla in CDAP o Cloud Data Fusion.
Destinazione Scrive le modifiche ricevute da un'origine in un database di destinazione. Un job di replica contiene una destinazione. Una destinazione è un modulo modulare creato utilizzando l'architettura dei plug-in di CDAP. Se un target non è disponibile per soddisfare le tue esigenze, puoi crearne una implementando l'interfaccia di destinazione e poi caricarla su CDAP o Cloud Data Fusion.
Proprietà sorgente Configura l'origine, inclusi i dettagli della connessione, i nomi delle tabelle e del database di origine, le credenziali e altre proprietà.
Proprietà target Configura la destinazione, inclusi i dettagli della connessione, i nomi delle tabelle e del database di destinazione, le credenziali e altre proprietà.
Proprietà del job di replica Configura il job di replica, incluse le soglie di errore, le aree temporanee, le notifiche e le impostazioni di convalida.
Bozza Un job di replica salvato e parzialmente completato. Una volta completata, la definizione del job di replica può essere avviata.
Eventi Eventi di modifica nell'origine da replicare nella destinazione. Gli eventi includono inserti, aggiornamenti, eliminazioni e modifiche DDL (Data Definition Language).
Inserisci Aggiunta di nuovi record nell'origine.
Aggiorna Esegui l'aggiornamento ai record esistenti nell'origine.
Elimina Rimozione dei record esistenti nell'origine.
Modifica DDL Un evento che contiene una modifica allo schema, come una modifica del nome o del tipo di dati.
Log I log operativi di un job di replica.
Dettagli job di replica Una pagina dei dettagli con informazioni sul job di replica, ad esempio stato attuale, metriche operative, visualizzazione cronologica nel tempo, risultati di convalida e configurazione.
Dashboard Una pagina che elenca lo stato di tutte le attività di Change Data Capture (CDC), tra cui velocità effettiva, latenza, percentuali di errori e risultati della convalida.

Azioni

Azioni Descrizione
Esegui il deployment Creazione di un nuovo job di replica seguendo un flusso di interfaccia web per specificare un'origine, una destinazione e la relativa configurazione.
Salva Salvataggio di un job di replica creato parzialmente per riprendere la creazione in un secondo momento.
Elimina Eliminazione di un job di replica esistente. Puoi eliminare solo le pipeline arrestate.
Avvia Avvio di un job di replica. Se ci sono modifiche da elaborare, il job di replica entra nello stato "attivo", altrimenti entra nello stato "in attesa".
Arresta Arresto di un job di replica. Il job di replica interrompe l'elaborazione delle modifiche dall'origine.
Visualizza i log Visualizzazione dei log di un job di replica per il debug o altre analisi.
Ricerca Ricerca di un job di replica in base al nome, alla descrizione o ad altri metadati del job di replica.
Valutazione Valutazione dell'impatto della replica prima dell'avvio della replica. La valutazione di un job di replica genera un report di valutazione che segnala le incompatibilità dello schema e le funzionalità mancanti.

Monitoraggio

Stati del replicatore Descrizione
Deployment eseguito È stato eseguito il deployment del job di replica, ma non è stato avviato. In questo stato, un job di replica non replica gli eventi.
In fase di avvio Il job di replica è in fase di inizializzazione e non è pronto per replicare le modifiche.
In esecuzione Il job di replica è stato avviato ed è in corso la replica delle modifiche.
In fase di arresto Il job di replica è in fase di arresto.
Interrotta Il job di replica è stato arrestato.
Non superato Il job di replica non è riuscito a causa di errori irreversibili.

Stati della tabella

Concetto Descrizione
Creazione di snapshot Il job di replica acquisisce uno snapshot dello stato attuale della tabella prima di replicare le modifiche.
In fase di replica Il job di replica sta replicando le modifiche dalla tabella di origine alla tabella di destinazione.
In stato di errore Il job di replica non riesce a replicare le modifiche dalla tabella di origine a causa di un errore.

Metriche

Concetto Descrizione
Inserti Il numero di inserti applicati al target nel periodo di tempo selezionato.
Aggiornamenti Il numero di aggiornamenti applicati al target nel periodo di tempo selezionato.
Operazioni di eliminazione Il numero di eliminazioni applicate al target nel periodo di tempo selezionato.
DDL Il numero di modifiche DDL applicate al target nel periodo di tempo selezionato.
Velocità effettiva Il numero di eventi e il numero di byte replicati nella destinazione nel periodo di tempo selezionato.
Latenza La latenza con cui i dati vengono replicati nel target nel periodo di tempo selezionato.

Componenti

Componente Descrizione
Servizio Supervisiona l'orchestrazione end-to-end dei job di replica e fornisce funzionalità per la progettazione, il deployment, la gestione e il monitoraggio dei job di replica. Viene eseguito all'interno del progetto tenant di Cloud Data Fusion (il progetto tenant è nascosto all'utente). Il suo stato è visualizzato nella pagina **Amministratore di sistema** dell'interfaccia web di Cloud Data Fusion.
Gestione statale Il servizio gestisce lo stato di ogni job di replica in un bucket Cloud Storage nel progetto del cliente. Il bucket può essere configurato quando viene creato il job di replica. Archivia gli offset attuali e lo stato di replica di ciascun job di replica.
Esecuzione I cluster Dataproc forniscono l'ambiente di esecuzione dei job di replica, che vengono eseguiti nel progetto. i job di replica vengono eseguiti utilizzando i worker CDAP. Le dimensioni e le caratteristiche dell'ambiente di esecuzione sono configurate con i profili di Compute Engine.
Database di origine Il tuo database operativo di produzione che si replica nel database di destinazione. Questo database può essere posizionato on-premise o su Google Cloud. Cloud Data Fusion Replication supporta i database di origine MySQL, Microsoft SQL Server e Oracle.
Soluzione di monitoraggio delle modifiche Anziché eseguire su un agente eseguito sul database di origine, Cloud Data Fusion si affida a una soluzione di monitoraggio delle modifiche per leggere le modifiche nel database di origine. La soluzione può essere un componente del database di origine o una soluzione di terze parti con licenza separata. Nel secondo caso, la soluzione di monitoraggio delle modifiche viene eseguita on-premise, in colocation con il database di origine o su Google Cloud. Ogni origine deve essere associata a una soluzione di monitoraggio delle modifiche.
  1. SQL Server
    • Soluzione supportata: SQL Server CDC (tabelle di monitoraggio delle modifiche)
    • Software aggiuntivo: no
    • Licenza/costo: N/D
    • Commenti: disponibile SQL Server 2016 e versioni successive
  2. MySQL
  3. Oracle
Database di destinazione La località di destinazione per la replica e l'analisi. Cloud Data Fusion supporta il database di destinazione BigQuery.
Autenticazione I meccanismi di autenticazione variano a seconda del database di origine o del software di monitoraggio delle modifiche. Quando si utilizzano le funzionalità integrate dei database di origine come SQL Server e MySQL, gli accessi ai database vengono utilizzati per l'autenticazione. Quando si utilizza il software di monitoraggio delle modifiche, viene utilizzato il meccanismo di autenticazione del software.

Connettività

La seguente tabella descrive le connessioni di rete necessarie per la replica e i meccanismi di sicurezza che utilizzano.

Da A Facoltativo Protocollo Rete Sicurezza di autenticazione Finalità
Servizio (progetto tenant) DB di origine Dipende dall'origine della replica. JDBC per la connessione diretta al database. Peering + regole firewall + VPN/Interconnessione + router Accesso DB Necessaria al momento della progettazione, non dell'esecuzione, della tempistica Funzioni: elenco delle tabelle, valutazione (passaggi facoltativi; la replica può continuare senza questi passaggi)
Servizio (progetto tenant) Cloud Storage No API Cloud VPC-SC IAM Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto) DB di origine No Dipende dalla fonte. JDBC per la connessione diretta al database. Peering + regole firewall + VPN/Interconnessione + router Accesso DB Necessaria al momento dell'esecuzione, per leggere le modifiche dal DB di origine alla replica nella destinazione
Dataproc (il tuo progetto) Cloud Storage No API Cloud VPC-SC IAM Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto) BigQuery No API Cloud VPC-SC IAM Necessaria al momento dell'esecuzione per applicare le modifiche dal database di origine al target

Passaggi successivi