La replica di Cloud Data Fusion ti consente di replicare i dati in modo continuativo e in tempo reale da datastore operativi, come SQL Server e MySQL in BigQuery.
Per utilizzare la replica, scegli uno dei seguenti modi:
- Crea una nuova istanza di Cloud Data Fusion e aggiungi il metodo app di replica.
- Aggiungi l'app di replica a un'istanza esistente.
Ecco alcuni vantaggi:
Identificazione di incompatibilità dello schema, problemi di connettività e dati mancanti funzioni prima di avviare la replica, quindi fornisce azioni correttive.
Usare i dati operativi più recenti in tempo reale per l'analisi all'interno in BigQuery. La replica basata su log viene utilizzata direttamente BigQuery di Microsoft SQL Server (utilizzando CDC di SQL Server) e MySQL (utilizzando MySQL Binary Log).
Change Data Capture (CDC) che fornisce una rappresentazione dei dati che sono cambiati in un flusso, consentendo al calcolo e all'elaborazione di concentrarsi in modo specifico i record modificati più di recente. Questo riduce al minimo gli addebiti per i dati in uscita sistemi di produzione sensibili.
Scalabilità aziendale a supporto di database transazionali di volumi elevati di dati a BigQuery siano supportati senza tempi di inattività replica degli snapshot, per preparare il data warehouse al consumo di modifiche senza interruzioni. Una volta creato lo snapshot iniziale, la replica delle modifiche inizia in tempo reale.
Le dashboard che ti aiutano a ottenere insight in tempo reale sulle prestazioni di replica. È utile per identificare i colli di bottiglia e monitorare gli SLA (accordi sul livello del servizio) per la consegna dei dati.
Compreso il supporto per la residenza dei dati e le chiavi di crittografia gestite dal cliente (CMEK) e i Controlli di servizio VPC. Integrazione di Cloud Data Fusion all'interno Google Cloud garantisce i massimi livelli di sicurezza aziendale e vengono osservate le informazioni sulla privacy mentre rende disponibili i dati più recenti. warehouse per l'analisi.
Prezzo consigliato
Quando la replica viene eseguita, ti vengono addebitati i costi e ti vengono addebitati costi di elaborazione per BigQuery. Per ottimizzare questi costi, consigliamo vivamente di utilizzare BigQuery prezzi a tariffazione maggiorata.
Per ulteriori informazioni, consulta Cloud Data Fusion nella pagina Prezzi.
Entità di replica
Entità | Descrizione |
---|---|
Replica | La replica è una funzionalità di Cloud Data Fusion che consente di replicare continuamente i dati a bassa latenza dai datastore operativi ai data warehouse analitici. Crea un un job di replica configurando e un target con trasformazioni facoltative. |
Origine | Legge gli eventi di modifica del database, della tabella o della colonna e li rende disponibili per un'ulteriore elaborazione in un job di replica. R il job di replica contiene una fonte, che si basa su una soluzione di acquisizione delle modifiche per fornire le modifiche. Un database può avere più origini, ognuna con una soluzione di acquisizione delle modifiche diversa. Un'origine è un modulo collegabile creato utilizzando il plug-in dell'architettura CDAP. Se un'origine non è disponibile per soddisfare le tue esigenze, puoi crearne uno tuo implementando l'interfaccia di origine e poi caricarlo su CDAP o Cloud Data Fusion. |
Target | Scrive le modifiche ricevute da un'origine in una destinazione per configurare un database. Un job di replica contiene una destinazione. Un target è un modulo innestato creato utilizzando il plug-in dell'architettura CDAP. Se non è disponibile un target per soddisfare le tue esigenze, puoi crearne una personalizzata implementando l'interfaccia di destinazione, quindi su CDAP o Cloud Data Fusion. |
Proprietà sorgente | Configura l'origine, inclusi i dettagli della connessione, nomi di tabelle e database di origine, credenziali e altre proprietà. |
Proprietà target | Configura la destinazione, inclusi i dettagli della connessione, nomi di database e tabelle di destinazione, credenziali e altre proprietà. |
Proprietà job di replica | Configura il job di replica, comprese le soglie di errore, aree di gestione temporanea, notifiche e impostazioni di convalida. |
Bozza | Un job di replica salvato e parzialmente completato. Quando la definizione del job di replica è completa, può essere avviata. |
Eventi | Gli eventi di modifica nell'origine devono essere replicati nella destinazione. Eventi includono inserimenti, aggiornamenti, eliminazioni e il linguaggio DDL (Data Definition Language) modifiche. |
Inserisci | Aggiunta di nuovi record nell'origine. |
Aggiorna | Esegui l'aggiornamento ai record esistenti nell'origine. |
Elimina | Rimozione dei record esistenti nell'origine. |
Modifica DDL | Un evento contenente una modifica dello schema, ad esempio una modifica dei dati. tipo o nome. |
Log | I log operativi di un job di replica. |
Dettagli job di replica | Una pagina dei dettagli con informazioni sul job di replica, come stato attuale, metriche operative, visualizzazione storica nel tempo, convalida risultati e la sua configurazione. |
Dashboard | Una pagina che elenca lo stato di tutte le attività di Change Data Capture (CDC), tra cui velocità effettiva, latenza, tassi di errore e convalida che consentono di analizzare i dati e visualizzare i risultati. |
Azioni
Azioni | Descrizione |
---|---|
Esegui il deployment | Crea un nuovo job di replica seguendo un'interfaccia web per specificare un'origine, una destinazione e la relativa configurazione. |
Salva | Salvataggio di un job di replica creato parzialmente da riprendere la creazione in un secondo momento. |
Elimina | Eliminazione di un job di replica esistente in corso... Solo interrotti le pipeline possono essere eliminate. |
Inizio | Avvio di un job di replica in corso... Se ci sono modifiche da elaborato, il job di replica entra nello stato "attivo"; altrimenti entra nello stato "in attesa". |
Interrompi | Arresto di un job di replica in corso. Il job di replica interrompe l'elaborazione delle modifiche dall'origine. |
Visualizza i log | Visualizzazione dei log di un job di replica per il debug o altre analisi. |
Cerca | Ricerca di un job di replica per nome, descrizione, o altri metadati del job di replica. |
Valutazione | Valutazione dell'impatto della replica prima di avviarla. La valutazione di un job di replica genera un report di valutazione che segnala incompatibilità dello schema e funzionalità mancanti. |
Monitoraggio
Stati replicatore | Descrizione |
---|---|
Deployment eseguito | Il deployment del job di replica è stato eseguito, ma non è stato avviato. In questo stato, un job di replica non replica gli eventi. |
In fase di avvio | Il job di replica è in fase di inizializzazione e non è pronto a replicare le modifiche. |
In esecuzione | Il job di replica è stato avviato ed è in fase di replica modifiche. |
In fase di arresto | Il job di replica è in fase di arresto. |
Interrotta | Il job di replica è stato arrestato. |
Non riuscito | Il job di replica non è riuscito a causa di errori irreversibili. |
Stati tabella
Concetto | Descrizione |
---|---|
In fase di creazione dello snapshot | Il job di replica sta eseguendo uno snapshot dell'attuale della tabella prima di replicare le modifiche. |
In replica | Il job di replica sta replicando le modifiche dall'origine nella tabella di destinazione. |
In errore | Il job di replica non riesce a replicare le modifiche dall' a causa di un errore. |
Metriche
Concetto | Descrizione |
---|---|
Inserti | Il numero di inserimenti applicati al target nel tempo selezionato punto. |
Aggiornamenti | Il numero di aggiornamenti applicati al target nell'orario selezionato punto. |
Eliminazioni | Il numero di eliminazioni applicate al target nel periodo di tempo selezionato punto. |
DDL | Il numero di modifiche DDL applicate al target nel periodo selezionato punto. |
Velocità effettiva | Il numero di eventi e il numero di byte replicati nella destinazione nel periodo di tempo selezionato. |
Latenza | La latenza con cui i dati vengono replicati nella destinazione nell'intervallo di date selezionato periodo di tempo. |
Componenti
Componente | Descrizione |
---|---|
Servizio | Supervisiona l'orchestrazione end-to-end dei job di replica, e offre funzionalità per la progettazione, il deployment, la gestione il monitoraggio dei job di replica. Viene eseguito all'interno Progetto tenant di Cloud Data Fusion (il progetto tenant è nascosto da parte dell'utente). Il suo stato viene visualizzato nella pagina **System Admin** (Amministratore di sistema) di l'interfaccia web di Cloud Data Fusion. |
Gestione dello stato | Il servizio gestisce lo stato di ogni job di replica in un del bucket Cloud Storage nel progetto del cliente. Il bucket può essere configurato quando viene creato il job di replica. Archivia e lo stato di replica di ciascuna di replica. |
Esecuzione | I cluster Dataproc forniscono l'ambiente di esecuzione dei job di replica eseguiti nel tuo progetto. i job di replica vengono eseguiti Worker CDAP. Le dimensioni e le caratteristiche dell'esecuzione sono configurati con profili Compute Engine. |
Database di origine | Il tuo database operativo di produzione che si replica nella tua destinazione per configurare un database. Questo database può trovarsi on-premise in Google Cloud. Cloud Data Fusion La replica supporta MySQL, Microsoft SQL Server e i database di origine Oracle. |
Cambia soluzione di monitoraggio | Anziché eseguire su un agente eseguito sul database di origine,
Cloud Data Fusion si affida a una soluzione di monitoraggio delle modifiche per
le modifiche apportate nel database di origine. La soluzione può essere un componente
il database di origine o un database di terze parti con licenza separata
soluzione. Nel secondo caso, la soluzione di monitoraggio delle modifiche
on-premise, in co-location con il database di origine o
in Google Cloud. Ogni origine deve essere associata a una modifica
soluzione di monitoraggio di Google Cloud.
|
Database di destinazione | La località di destinazione per la replica e l'analisi. Cloud Data Fusion supporta BigQuery database di destinazione. |
Autenticazione | I meccanismi di autenticazione variano a seconda del database di origine o software di monitoraggio dei cambiamenti. Quando si utilizzano le funzionalità integrate di come SQL Server e MySQL, gli accessi ai database sono utilizzati autenticazione. Quando utilizzi un software di monitoraggio delle modifiche, meccanismo di autenticazione del software. |
Connettività
La tabella seguente descrive le connessioni di rete necessarie per Replica e meccanismi di sicurezza utilizzati.
Da | A | Facoltativo | Protocollo | Rete | Sicurezza di autenticazione | Finalità |
---|---|---|---|---|---|---|
Servizio (progetto tenant) | DB di origine | Sì | Dipende dall'origine della replica. JDBC per annunci diretti connessione al database. | Peering + Regole firewall + VPN/Interconnessione + Router | Accesso DB | Necessaria in fase di progettazione, non in fase di esecuzione Funzioni: elenco tabelle, valutazione (passaggi facoltativi; la replica può continuare senza di essi) |
Servizio (progetto tenant) | Cloud Storage | No | API Cloud | VPC-SC | IAM | Gestione dello stato: offset, stati di replica |
Dataproc (il tuo progetto) | DB di origine | No | Dipende dall'origine. JDBC per la connessione diretta al database. | Peering + Regole firewall + VPN/Interconnessione + Router | Accesso DB | Necessaria al momento dell'esecuzione, per leggere le modifiche dal database di origine a di replicare nella destinazione |
Dataproc (il tuo progetto) | Cloud Storage | No | API Cloud | VPC-SC | IAM | Gestione dello stato: offset, stati di replica |
Dataproc (il tuo progetto) | BigQuery | No | API Cloud | VPC-SC | IAM | Necessario al momento dell'esecuzione per applicare le modifiche dal database di origine a il target |
Passaggi successivi
- Consulta il riferimento dell'API Replication.
- Fai riferimento alle mappature dei tipi di dati per la replica.