Questa pagina è stata tradotta dall'API Cloud Translation.

Panoramica della replica

La replica di Cloud Data Fusion ti consente di creare copie dei tuoi dati in modo continuo e in tempo reale dai datastore operativi, come SQL Server e MySQL, in BigQuery.

Per utilizzare la replica, scegli uno dei seguenti metodi:

Crea una nuova istanza di Cloud Data Fusion e aggiungi l'app di replica.
Aggiungi l'app Replica a un'istanza esistente.

I vantaggi includono:

Identifica incompatibilità dello schema, problemi di connettività e funzionalità mancanti prima di avviare la replica, quindi fornisce azioni correttive.
Utilizzo dei dati operativi più recenti in tempo reale per l'analisi in BigQuery. Utilizza la replica basata su log direttamente in BigQuery da Microsoft SQL Server (utilizzando SQL Server CDC) e MySQL (utilizzando MySQL Binary Log).
Change Data Capture (CDC) fornisce una rappresentazione dei dati che sono stati modificati in uno stream, consentendo ai calcoli e all'elaborazione di concentrarsi specificamente su i record modificati più di recente. In questo modo riduci al minimo gli addebiti per i dati in uscita su sistemi di produzione sensibili.
Scalabilità aziendale che supporta database transazionali ad alto volume. I caricamenti iniziali dei dati in BigQuery sono supportati con la replica degli snapshot senza tempi di riposo, per preparare il data warehouse all'utilizzo delle modifiche in modo continuo. Al termine dello snapshot iniziale, viene avviata in tempo reale la replica continua delle modifiche con un elevato throughput.
Le dashboard che ti aiutano a ottenere informazioni in tempo reale sul rendimento della replica. È utile per identificare i colli di bottiglia e monitorare gli SLA di invio dei dati.
È incluso il supporto della residenza dei dati, delle chiavi di crittografia gestite dal cliente (CMEK) e dei Controlli di servizio VPC. L'integrazione di Cloud Data Fusion inGoogle Cloud garantisce i massimi livelli di sicurezza e privacy aziendale, rendendo al contempo disponibili i dati più recenti nel data warehouse per l'analisi.

Prezzi consigliati

Quando viene eseguita la replica, ti viene addebitato il costo del cluster Dataproc e devi sostenere i costi di elaborazione per BigQuery. Per ottimizzare questi costi, ti consigliamo vivamente di utilizzare i prezzi a costo fisso di BigQuery.

Per ulteriori informazioni, consulta la pagina Prezzi di Cloud Data Fusion.

Entità di replica

Entità	Descrizione
Replica	La replica è una funzionalità di Cloud Data Fusion che consente di replicare i dati in modo continuo e con bassa latenza dai datastore operativi ai data warehouse di analisi. Crea un job di replica configurando un 'origine e una destinazione con trasformazioni facoltative.
Origine	Legge gli eventi di modifica di database, tabelle o colonne e li rende disponibili per un'ulteriore elaborazione in un job di replica. Un job di replica contiene un'origine che si basa su una soluzione di rilevamento delle modifiche per fornire le modifiche. Per un database possono essere presenti più origini, ciascuna con una soluzione di rilevamento delle modifiche diversa. Una sorgente è un modulo pluggable creato utilizzando l'architettura del plug-in di CDAP. Se non è disponibile un'origine per soddisfare le tue esigenze, puoi crearne una implementando l'interfaccia di origine, quindi caricarla in CDAP o Cloud Data Fusion.
Target	Scrive le modifiche ricevute da un'origine in un database di destinazione. Un job di replica contiene un target. Un target è un modulo pluggable creato utilizzando l'architettura del plug-in di CDAP. Se non è disponibile un target per soddisfare le tue esigenze, puoi crearne uno implementando l'interfaccia di destinazione, quindi caricarlo in CDAP o Cloud Data Fusion.
Proprietà sorgente	Configura l'origine, inclusi i dettagli di connessione, i nomi del database e delle tabelle di origine, le credenziali e altre proprietà.
Proprietà target	Configura la destinazione, inclusi i dettagli di connessione, i nomi del database e delle tabelle di destinazione, le credenziali e altre proprietà.
Proprietà del job di replica	Configura il job di replica, incluse le soglie di errore, le aree di staging, le notifiche e le impostazioni di convalida.
Bozza	Un job di replica salvato e parzialmente completato. Quando la definizione del job di replica è completata, può essere avviata.
Eventi	Modifica gli eventi nella sorgente da replicare nel target. Gli eventi includeranno inserimenti, aggiornamenti, eliminazioni e modifiche DDL (Data Definition Language).
Inserisci	Aggiunta di nuovi record nell'origine.
Aggiorna	Aggiornamento dei record esistenti nell'origine.
Elimina	Rimozione dei record esistenti nell'origine.
Modifica DDL	Un evento che contiene una modifica dello schema, ad esempio una modifica del tipo o del nome dei dati.
Log	I log operativi di un job di replica.
Dettagli del job di replica	Una pagina dei dettagli con le informazioni sul job di replica, ad esempio lo stato corrente, le metriche operative, la visualizzazione storica nel tempo, i risultati della convalida e la configurazione.
Dashboard	Una pagina che elenca lo stato di tutte le attività di acquisizione dei dati sulle modifiche, tra cui velocità effettiva, latenza, tassi di errore e risultati della convalida.

Azioni

Azioni	Descrizione
Esegui il deployment	Creazione di un nuovo job di replica seguendo un flusso dell'interfaccia web per specificare un'origine, una destinazione e la relativa configurazione.
Salva	Salvare un job di replica creato parzialmente per riprendere la creazione in un secondo momento.
Elimina	Eliminazione di un job di replica esistente. È possibile eliminare solo le pipeline arrestate.
Inizia	Avvio di un job di replica. Se ci sono modifiche da elaborare, il job di replica entra nello stato "active"; in caso contrario, entra nello stato "waiting".
Interrompi	Arresto di un job di replica. Il job di replica interrompe l'elaborazione delle modifiche dall'origine.
Visualizza i log	Visualizzazione dei log di un job di replica per il debug o altre analisi.
Cerca	Ricerca di un job di replica per nome, descrizione o altri metadati del job di replica.
Valutazione	Valutare l'impatto della replica prima di avviarla. La valutazione di un job di replica genera un report di valutazione che segnala le incompatibilità dello schema e le funzionalità mancanti.

Monitoraggio

Stati del replicatore	Descrizione
Deployment eseguito	Il job di replica è stato disegnato, ma non è stato avviato. In questo stato, un job di replica non esegue la replica degli eventi.
In fase di avvio	Il job di replica è in fase di inizializzazione e non è pronto per replicare le modifiche.
In esecuzione	Il job di replica è stato avviato e sta replicando le modifiche.
In fase di arresto	Il job di replica si sta arrestando.
Interrotta	Il job di replica è stato interrotto.
Non riuscito	Il job di replica non è riuscito a causa di errori fatali.

Stati della tabella

Concetto	Descrizione
In fase di creazione dello snapshot	Il job di replica sta acquisendo uno snapshot dello stato corrente della tabella prima di replicare le modifiche.
In replica	Il job di replica sta replicando le modifiche dalla tabella di origine alla tabella di destinazione.
In errore	Il job di replica non riesce a replicare le modifiche dalla tabella di origine a causa di un errore.

Metriche

Concetto	Descrizione
Inserti	Il numero di inserimenti applicati al target nel periodo di tempo selezionato.
Aggiornamenti	Il numero di aggiornamenti applicati al target nel periodo di tempo selezionato.
Eliminazioni	Il numero di eliminazioni applicate al target nel periodo di tempo selezionato.
DDL	Il numero di modifiche DDL applicate al target nel periodo di tempo selezionato.
Velocità effettiva	Il numero di eventi e il numero di byte replicati al target nel periodo di tempo selezionato.
Latenza	La latenza con cui i dati vengono replicati nella destinazione nel periodo di tempo selezionato.

Componenti

Componente	Descrizione
Servizio	Supervisiona l'orchestrazione end-to-end dei job di replica e fornisce funzionalità per progettare, implementare, gestire e monitorare i job di replica. Viene eseguito all'interno del progetto tenant Cloud Data Fusion (il progetto tenant è nascosto all'utente). Il relativo stato viene visualizzato nella pagina Amministrazione di sistema dell'interfaccia web di Cloud Data Fusion.
Gestione dello stato	Il servizio gestisce lo stato di ogni job di replica in un bucket Cloud Storage nel progetto del cliente. Il bucket può essere configurato al momento della creazione del job di replica. Memorizza gli offset e lo stato di replica correnti di ciascun job di replica.
Esecuzione	I cluster Dataproc forniscono l'ambiente di esecuzione dei job di replica, che vengono eseguiti nel progetto. I job di replica vengono eseguiti utilizzando i worker CDAP. Le dimensioni e le caratteristiche dell'ambiente di esecuzione sono configurate con i profili Compute Engine.
Database di origine	Il database operativo di produzione che si replica nel database di destinazione. Questo database può trovarsi on-premise o su Google Cloud. La replica di Cloud Data Fusion supporta i database di origine MySQL, Microsoft SQL Server e Oracle.
Modificare la soluzione di monitoraggio	Invece di essere eseguito su un agente che funziona sul database di origine, Cloud Data Fusion si basa su una soluzione di monitoraggio delle modifiche per leggere le modifiche nel database di origine. La soluzione può essere un componente del database di origine o una soluzione di terze parti concessa in licenza separatamente. In quest'ultimo caso, la soluzione di monitoraggio delle modifiche viene eseguita on-premise, in co-locazione con il database di origine o su Google Cloud. Ogni origine deve essere associata a una soluzione di monitoraggio delle modifiche. SQL Server Soluzione supportata: SQL Server CDC (tabelle di monitoraggio delle modifiche) Software aggiuntivo: no Licenza/costo: N/A Commenti: disponibile per SQL Server 2016 e versioni successive MySQL Soluzione supportata: Log binario MySQL Software aggiuntivo: no Licenza/costo: N/A Commenti: N/A Oracle Soluzione supportata: Oracle LogMiner Software aggiuntivo: no Licenza/costo: N/A Commenti: consulta le versioni supportate da Datastream
Database di destinazione	La posizione di destinazione per la replica e l'analisi. Cloud Data Fusion supporta il database di destinazione BigQuery.
Autenticazione	I meccanismi di autenticazione variano in base al database di origine o al software di monitoraggio delle modifiche. Quando utilizzi le funzionalità integrate dei database di origine, come SQL Server e MySQL, per l'autenticazione vengono utilizzati gli accessi al database. Quando utilizzi un software di monitoraggio delle modifiche, viene utilizzato il meccanismo di autenticazione del software.

Connettività

La tabella seguente descrive le connessioni di rete richieste per la replica e i meccanismi di sicurezza utilizzati.

Da	A	Facoltativo	Protocollo	Rete	Sicurezza di autenticazione	Finalità
Servizio (progetto tenant)	Database di origine	Sì	Dipende dall'origine della replica. JDBC per la connessione diretta al database.	Peering + Regole firewall + VPN/Interconnect + Router	Accesso al database	Occorre al momento della progettazione, non dell'esecuzione. Funzioni: elenco di tabelle, valutazione (passaggi facoltativi; la replica può continuare senza di essi)
Servizio (progetto tenant)	Cloud Storage	No	API Cloud	VPC-SC	IAM	Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto)	Database di origine	No	Dipende dalla fonte. JDBC per la connessione diretta al database.	Peering + Regole firewall + VPN/Interconnect + Router	Accesso al database	Obbligatorio al momento dell'esecuzione per leggere le modifiche dal DB di origine da replicare al target
Dataproc (il tuo progetto)	Cloud Storage	No	API Cloud	VPC-SC	IAM	Gestione dello stato: offset, stati di replica
Dataproc (il tuo progetto)	BigQuery	No	API Cloud	VPC-SC	IAM	Necessario al momento dell'esecuzione per applicare le modifiche dal DB di origine al target

Passaggi successivi

Consulta il riferimento all'API Replication.
Consulta le mappature dei tipi di dati per la replica.