Replikation

Mit Cloud Data Fusion Replication können Sie Daten kontinuierlich und in Echtzeit aus operativen Datenspeichern wie SQL Server und MySQL in BigQuery replizieren.

Sie haben folgende Möglichkeiten, die Replikation zu verwenden:

Erstellen Sie eine neue Instanz von Cloud Data Fusion und fügen Sie die Replikations-App hinzu.
Fügen Sie die Replikations-App einer vorhandenen Instanz hinzu.

Weitere Informationen finden Sie in den Anleitungen zu MySQL, SQL Server und Oracle.

Dies sind die wichtigsten Vorteile:

Eine einfache Oberfläche für ETL-Entwickler und Datenanalysten zum Einrichten von Replikationsjobs.
Hilft Ihnen, Schemainkompatibilitäten, Verbindungsprobleme und fehlende Features vor dem Starten der Replikation zu identifizieren und dann Korrekturmaßnahmen zu ergreifen.
Sie können die neuesten Betriebsdaten in Echtzeit für Analysen in BigQuery verwenden. Sie verwenden die logbasierte Replikation direkt von BigQuery aus Microsoft SQL Server (mit SQL Server CDC) und MySQL (mit MySQL Binary Log).
Change Data Capture (CDC) bietet eine Darstellung von Daten, die sich in einem Stream geändert haben. Dadurch können sich Berechnungen und Verarbeitung speziell auf die zuletzt geänderten Datensätze konzentrieren. Dadurch werden die Gebühren für ausgehende Daten auf vertrauliche Produktionssysteme minimiert.
Skalierbarkeit für Unternehmen zur Unterstützung von Transaktionsdatenbanken mit hohem Datenvolumen. Ein anfängliches Laden von Daten in BigQuery wird mit einer Snapshot-Replikation ohne Ausfallzeiten unterstützt, damit das Data Warehouse kontinuierlich auf Änderungen zugreifen kann. Sobald der erste Snapshot erstellt ist, beginnt die kontinuierliche Replikation von Änderungen in Echtzeit mit hohem Durchsatz.
Über die Dashboards erhalten Sie Echtzeitinformationen zur Replikationsleistung. Es ist nützlich, um Engpässe zu erkennen und die SLAs zur Datenbereitstellung zu überwachen.
Unterstützung für Datenstandorte, vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) und VPC Service Controls. Durch die Einbindung von Cloud Data Fusion in Google Cloud werden die höchsten Sicherheits- und Datenschutzstandards für Unternehmen eingehalten, während die neuesten Daten für Analysen in Ihrem Data Warehouse zur Verfügung gestellt werden.

Empfohlene Preise

Bei der Replikation werden Ihnen Kosten für den Dataproc-Cluster und Verarbeitungskosten für BigQuery in Rechnung gestellt. Zur Optimierung dieser Kosten empfehlen wir dringend, BigQuery-Pauschalpreise zu verwenden.

Weitere Informationen finden Sie auf der Seite Preise für Cloud Data Fusion.

Replikationsentitäten

Entity	Beschreibung
Replikation	Die Replikation ist eine Funktion von Cloud Data Fusion, mit der Daten kontinuierlich und mit niedriger Latenz aus operativen Datenspeichern in analytische Data Warehouses repliziert werden können. Konfigurieren Sie eine Quelle und ein Ziel mit optionalen Transformationen, um einen Replikationsjob zu erstellen.
Quelle	Liest Datenbank-, Tabellen- oder Spaltenänderungsereignisse und stellt sie zur weiteren Verarbeitung in einem Replikationsjob zur Verfügung. Ein Replikationsjob enthält eine Quelle, die auf eine Change-Capture-Lösung zurückgreift, um die Änderungen bereitzustellen. Für eine Datenbank können mehrere Quellen mit jeweils einer anderen Änderungserfassungslösung vorhanden sein. Eine Quelle ist ein Plug-in-Modul, das mit der Plug-in-Architektur von CDAP erstellt wurde. Wenn eine Quelle nicht Ihren Anforderungen entspricht, können Sie eine eigene erstellen, indem Sie die Quellschnittstelle implementieren und diese dann in CDAP oder Cloud Data Fusion hochladen.
Ziel	Schreibt Änderungen, die von einer Quelle empfangen wurden, in eine Zieldatenbank. Ein Replikationsjob enthält ein Ziel. Ein Ziel ist ein modulares Modul, das mit der Plug-in-Architektur von CDAP erstellt wurde. Wenn ein Ziel nicht Ihren Anforderungen entspricht, können Sie ein eigenes erstellen. Implementieren Sie dazu die Zielschnittstelle und laden Sie es dann in CDAP oder Cloud Data Fusion hoch.
Quellattribute	Konfiguriert die Quelle, einschließlich Verbindungsdetails, Quelldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Zielattribute	Konfiguriert das Ziel, einschließlich Verbindungsdetails, Zieldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Attribute des Replikationsjobs	Konfiguriert einen Replikationsjob, einschließlich Fehlergrenzwerten, Staging-Bereichen, Benachrichtigungen und Validierungseinstellungen.
Entwurf	Ein gespeicherter, teilweise abgeschlossener Replikationsjob. Wenn die Definition des Replikationsjobs abgeschlossen ist, kann er gestartet werden.
Ereignisse	Ereignisse in der Quelle ändern, die zum Ziel repliziert werden sollen Ereignisse umfassen Einfüge-, Aktualisierungs- und Löschvorgänge sowie DDL-Änderungen (Data Definition Language).
Einfügen	Hinzufügen neuer Einträge in der Quelle.
Aktualisieren	Aktualisieren vorhandener Datensätze in der Quelle.
Löschen	Entfernen vorhandener Datensätze in der Quelle
DDL-Änderung	Ein Ereignis, das eine Schemaänderung enthält, z. B. eine Änderung des Datentyps oder des Namens.
Logs	Die Vorgangslogs eines Replikationsjobs.
Details zum Replikationsjob	Eine Detailseite mit Informationen zu Replikationsjobs, z. B. aktueller Status, Betriebsmesswerte, Verlaufsansicht im Zeitverlauf, Validierungsergebnisse und Konfiguration.
Dashboard	Eine Seite mit dem Status aller CDC-Aktivitäten, einschließlich Durchsatz, Latenz, Fehlerraten und Validierungsergebnisse.

Aktionen

Aktionen	Beschreibung
Bereitstellen	Erstellen eines neuen Replikationsjobs, indem Sie einer Weboberfläche folgen, um eine Quelle, ein Ziel und deren Konfiguration anzugeben.
Speichern	Speichern eines teilweise erstellten Replikationsjobs, um die Erstellung später fortzusetzen.
Löschen	Einen vorhandenen Replikationsjob löschen. Nur angehaltene Pipelines können gelöscht werden.
Beginn	Replikationsjob wird gestartet. Wenn Änderungen verarbeitet werden müssen, wechselt der Replikationsjob in den Status „Aktiv“. Andernfalls wechselt er in den Status „Warten“.
Beenden	Replikationsjob wird beendet. Der Replikationsjob beendet die Verarbeitung von Änderungen aus der Quelle.
Logs ansehen	Logs eines Replikationsjobs zum Debugging oder für andere Analysen ansehen
Suche	Anhand des Namens, der Beschreibung oder anderer Metadaten des Replikationsjobs nach einem Replikationsjob suchen.
Evaluieren	Auswirkungen der Replikation vor dem Start der Replikation bewerten. Beim Bewerten eines Replikationsjobs wird ein Bewertungsbericht generiert, der Schemainkompatibilitäten und fehlende Features kennzeichnet.

Monitoring

Replikatstatus	Beschreibung
Bereitgestellt	Der Replikationsjob wurde bereitgestellt, aber nicht gestartet. In diesem Status repliziert ein Replikationsjob keine Ereignisse.
Wird gestartet	Der Replikationsjob wird initialisiert und ist nicht bereit, Änderungen zu replizieren.
Wird ausgeführt	Der Replikationsjob wurde gestartet und repliziert Änderungen.
Wird beendet	Der Replikationsjob wird beendet.
Beendet	Der Replikationsjob wurde angehalten.
Fehlgeschlagen	Der Replikationsjob ist aufgrund schwerwiegender Fehler fehlgeschlagen.

Tabellenstatus

Konzept	Beschreibung
Erstellen von Snapshots	Der Replikationsjob erstellt einen Snapshot des aktuellen Status der Tabelle, bevor Änderungen repliziert werden.
Replikation	Der Replikationsjob repliziert Änderungen aus der Quelltabelle in die Zieltabelle.
Fehler	Der Replikationsjob kann Änderungen aufgrund eines Fehlers nicht aus der Quelltabelle repliziert.

Messwerte

Konzept	Beschreibung
Einfügungen	Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Updates	Die Anzahl der Aktualisierungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Löschvorgänge	Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
DDLs	Die Anzahl der DDL-Änderungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Durchsatz	Die Anzahl der Ereignisse und die Anzahl der Byte, die im ausgewählten Zeitraum am Ziel repliziert wurden.
Latenz	Die Latenz, zu der Daten im ausgewählten Zeitraum am Ziel repliziert werden.

Komponenten

Komponente	Beschreibung
Dienst	Überwacht die durchgängige Orchestrierung von Replikationsjobs und bietet Funktionen zum Entwerfen, Bereitstellen, Verwalten und Überwachen von Replikationsjobs. Sie wird im Cloud Data Fusion-Mandantenprojekt ausgeführt (das Mandantenprojekt ist für den Nutzer ausgeblendet). Der Status wird auf der Seite Systemadministrator der Cloud Data Fusion-Weboberfläche angezeigt.
Zustandsverwaltung	Der Dienst verwaltet den Status jedes Replikationsjobs in einem Cloud Storage-Bucket im Kundenprojekt. Der Bucket kann beim Erstellen des Replikationsjobs konfiguriert werden. Er speichert die aktuellen Offsets und den Replikationsstatus jedes Replikationsjobs.
Umsetzung	Dataproc-Cluster bieten die Ausführungsumgebung von Replikationsjobs, die in Ihrem Projekt ausgeführt werden. Replikationsjobs werden mit CDAP-Workern ausgeführt. Die Größe und Eigenschaften der Ausführungsumgebung werden mit Compute Engine-Profilen konfiguriert.
Quelldatenbank	Betriebsdatenbank für die Produktion, die in die Zieldatenbank repliziert wird Diese Datenbank kann sich lokal oder in Google Cloud befinden. Cloud Data Fusion Replication unterstützt MySQL-, Microsoft SQL Server- und Oracle-Quelldatenbanken.
Lösung zur Änderungsverfolgung	Anstatt auf einem Agent ausgeführt zu werden, der auf der Quelldatenbank ausgeführt wird, benötigt Cloud Data Fusion eine Änderungsverfolgungslösung, um Änderungen in der Quelldatenbank zu lesen. Die Lösung kann eine Komponente der Quelldatenbank oder eine separat lizenzierte Drittanbieterlösung sein. Im letzteren Fall wird die Änderungsverfolgungslösung lokal, in der Quelldatenbank oder in Google Cloud ausgeführt. Jede Quelle muss einer Änderungsverfolgungslösung zugeordnet sein. SQL Server Unterstützte Lösung: SQL Server CDC (Tabellen zur Änderungsverfolgung) Zusätzliche Software: Nein Lizenz/Kosten: – Kommentare: Verfügbare SQL Server 2016 und höher MySQL Unterstützte Lösung: MySQL-Binärlog Zusätzliche Software: Nein Lizenz/Kosten: – Kommentare: – Oracle Unterstützte Lösung: Oracle LogMiner Zusätzliche Software: Nein Lizenz/Kosten: – Kommentare:Siehe von Datastream unterstützte Versionen
Zieldatenbank	Der Zielspeicherort für die Replikation und die Analyse. Cloud Data Fusion unterstützt die BigQuery-Zieldatenbank.
Authentifizierung	Die Authentifizierungsmechanismen variieren je nach Quelldatenbank oder Änderungsverfolgungssoftware. Bei Verwendung der integrierten Funktionen von Quelldatenbanken wie SQL Server und MySQL werden Datenbankanmeldungen zur Authentifizierung verwendet. Bei Verwendung von Änderungs-Tracking-Software wird der Authentifizierungsmechanismus der Software verwendet.

Verbindung

In der folgenden Tabelle werden die für die Replikation erforderlichen Netzwerkverbindungen und entsprechenden Sicherheitsmechanismen beschrieben.

Von	To	Optional	Protokoll	Netzwerk	Auth-Sicherheit	Zweck
Dienst (Mandantenprojekt)	Quelldatenbank	Ja	Hängt von der Replikationsquelle ab. JDBC für direkte Datenbankverbindung.	Peering + Firewallregeln + VPN/Interconnect + Router	DB-Anmeldung	Wird beim Entwurf, nicht bei der Ausführung benötigt, Zeitfunktionen: Tabellenauflistung, Bewertung (optionale Schritte; Replikation kann ohne sie fortgesetzt werden)
Dienst (Mandantenprojekt)	Cloud Storage	Nein	Cloud API	VPC-SC	IAM	Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt)	Quelldatenbank	Nein	Je nach Quelle. JDBC für direkte DB-Verbindung.	Peering + Firewallregeln + VPN/Interconnect + Router	DB-Anmeldung	Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank zu lesen und an das Ziel zu replizieren
Dataproc (Ihr Projekt)	Cloud Storage	Nein	Cloud API	VPC-SC	IAM	Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt)	BigQuery	Nein	Cloud API	VPC-SC	IAM	Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank auf das Ziel anzuwenden

Nächste Schritte

Anleitung zum Replizieren von Daten aus SQL Server in BigQuery
Anleitung zum Replizieren von Daten aus MySQL in BigQuery
Anleitung zum Replizieren von Daten aus Oracle in BigQuery
Replication API-Referenz
Weitere Informationen finden Sie unter Datentypzuordnungen für die Replikation.