Replikationsübersicht

Mit Cloud Data Fusion Replication können Sie kontinuierlich und in Echtzeit Kopien Ihrer Daten aus Betriebsdatenspeichern wie SQL Server und MySQL in BigQuery erstellen.

Sie haben folgende Möglichkeiten, die Replikation zu verwenden:

  • Erstellen Sie eine neue Cloud Data Fusion-Instanz und fügen Sie die Replikationsanwendung hinzu.
  • Fügen Sie die Replikations-App einer vorhandenen Instanz hinzu.

Dies sind die wichtigsten Vorteile:

  • Hilft Ihnen, Schemainkompatibilitäten, Verbindungsprobleme und fehlende Features vor dem Starten der Replikation zu identifizieren und dann Korrekturmaßnahmen zu ergreifen.

  • Sie können die neuesten Betriebsdaten in Echtzeit für Analysen in BigQuery verwenden. Sie verwenden die logbasierte Replikation direkt von BigQuery aus Microsoft SQL Server (mit SQL Server CDC) und MySQL (mit MySQL Binary Log).

  • Mit Change Data Capture (CDC) können Sie Daten darstellen, die sich in einem Stream geändert haben. Berechnungen und Verarbeitung können Sie somit auf die zuletzt geänderten Datensätze konzentrieren. So werden die Kosten für ausgehende Daten in sensiblen Produktionssystemen minimiert.

  • Skalierbarkeit für Unternehmen zur Unterstützung von Transaktionsdatenbanken mit hohem Datenvolumen. Ein anfängliches Laden von Daten in BigQuery wird mit einer Snapshot-Replikation ohne Ausfallzeiten unterstützt, damit das Data Warehouse kontinuierlich auf Änderungen zugreifen kann. Sobald der erste Snapshot erstellt wurde, beginnt die kontinuierliche Replikation der Änderungen mit hohem Durchsatz in Echtzeit.

  • Über die Dashboards erhalten Sie Echtzeitinformationen zur Replikationsleistung. Dies ist hilfreich, um Engpässe zu identifizieren und SLAs für die Datenübermittlung zu überwachen.

  • Unterstützung für Datenstandorte, vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) und VPC Service Controls. Durch die Einbindung von Cloud Data Fusion inGoogle Cloud werden in Ihrem Unternehmen höchste Sicherheits- und Datenschutzstandards erfüllt. Gleichzeitig stehen die neuesten Daten in Ihrem Data Warehouse für Analysen zur Verfügung.

Wenn die Replikation ausgeführt wird, werden Ihnen der Dataproc-Cluster und Verarbeitungskosten für BigQuery in Rechnung gestellt. Zur Optimierung dieser Kosten empfehlen wir dringend, BigQuery-Pauschalpreise zu verwenden.

Weitere Informationen finden Sie auf der Seite Preise für Cloud Data Fusion.

Replikationsentitäten

Entity Beschreibung
Replikation Die Replikation ist eine Funktion von Cloud Data Fusion, mit der Daten kontinuierlich mit geringer Latenz aus operativen Datenspeichern in analytische Data Warehouses repliziert werden können. Erstellen Sie einen Replikationsjob. Konfigurieren Sie dazu eine Quelle und ein Ziel mit optionalen Transformationen.
Quelle Liest Datenbank-, Tabellen- oder Spaltenänderungsereignisse und stellt sie zur weiteren Verarbeitung in einem Replikationsjob zur Verfügung. Ein Replikationsjob enthält eine Quelle, die auf einer Lösung zur Erfassung von Änderungen basiert. Für eine Datenbank können mehrere Quellen mit jeweils einer anderen Änderungserfassungslösung vorhanden sein. Eine Quelle ist ein modulares Modul, das mithilfe der Plug-in-Architektur von CDAP erstellt wurde. Wenn eine Quelle nicht Ihren Anforderungen entspricht, können Sie eine eigene erstellen, indem Sie die Quellschnittstelle implementieren und diese dann in CDAP oder Cloud Data Fusion hochladen.
Ziel Schreibt Änderungen, die von einer Quelle empfangen wurden, in eine Zieldatenbank. Ein Replikationsjob enthält ein Ziel. Ein Ziel ist ein Plug-in-fähiges Modul, das mit der Plug-in-Architektur von CDAP erstellt wurde. Wenn ein Ziel nicht Ihren Anforderungen entspricht, können Sie ein eigenes erstellen. Implementieren Sie dazu die Zielschnittstelle und laden Sie es dann in CDAP oder Cloud Data Fusion hoch.
Quellattribute Konfiguriert die Quelle, einschließlich Verbindungsdetails, Quelldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Zielattribute Konfiguriert das Ziel, einschließlich Verbindungsdetails, Zieldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Attribute des Replikationsjobs Konfiguriert den Replikationsjob, einschließlich Fehlerschwellenwerte, Staging-Bereichen, Benachrichtigungen und Validierungseinstellungen.
Entwurf Einen gespeicherten, teilweise abgeschlossenen Replikationsjob. Wenn die Replikationsjobdefinition abgeschlossen ist, kann sie gestartet werden.
Ereignisse Ereignisse in der Quelle ändern, die zum Ziel repliziert werden sollen Ereignisse umfassen Einfügungen, Aktualisierungen, Löschungen und Änderungen der DDL-Daten (Data Definition Language).
Einfügen Hinzufügen neuer Einträge in der Quelle.
Aktualisieren Aktualisieren vorhandener Datensätze in der Quelle.
Löschen Entfernen vorhandener Datensätze in der Quelle
DDL-Änderung Ein Ereignis, das eine Schemaänderung enthält, z. B. eine Änderung des Datentyps oder des Namens.
Logs Die Betriebslogs eines Replikationsjobs.
Details zum Replikationsjob Eine Detailseite mit Informationen zum Replikationsjob, z. B. aktueller Status, Betriebsmesswerte, Verlaufsansicht im Zeitverlauf, Validierungsergebnisse und Konfiguration.
Dashboard Eine Seite mit dem Status aller CDC-Aktivitäten, einschließlich Durchsatz, Latenz, Fehlerraten und Validierungsergebnisse.

Aktionen

Aktionen Beschreibung
Bereitstellen Neuen Replikationsjob anhand eines Weboberflächen-Ablaufs erstellen, um eine Quelle, ein Ziel und ihre Konfiguration anzugeben.
Speichern Teilweise erstellten Replikationsjob speichern, um die Erstellung zu einem späteren Zeitpunkt fortzusetzen.
Löschen Einen vorhandenen Replikationsjob löschen. Nur angehaltene Pipelines können gelöscht werden.
Start Replikationsjob starten. Wenn Änderungen verarbeitet werden müssen, wechselt der Replikationsjob in den Status „aktiv“. Andernfalls wechselt er in den Status „wartend“.
Beenden Replikationsjob anhalten Der Replikationsjob beendet die Verarbeitung von Änderungen aus der Quelle.
Logs ansehen Logs eines Replikationsjobs für das Debugging oder andere Analysen aufrufen.
Suchen Nach einem Replikationsjob anhand seines Namens, seiner Beschreibung oder anderer Metadaten des Replikationsjobs suchen.
Bewerten Auswirkungen der Replikation vor dem Start der Replikation bewerten. Bei der Bewertung eines Replikationsjobs wird ein Bewertungsbericht generiert, der Schemainkompatibilitäten und fehlende Features meldet.

Monitoring

Replikatstatus Beschreibung
Bereitgestellt Der Replikationsjob wurde bereitgestellt, aber nicht gestartet. In diesem Status repliziert ein Replikationsjob keine Ereignisse.
Wird gestartet Der Replikationsjob wird initialisiert und ist nicht bereit, Änderungen zu replizieren.
Wird ausgeführt Der Replikationsjob wird gestartet und Änderungen werden repliziert.
Wird beendet Der Replikationsjob wird beendet.
Angehalten Der Replikationsjob wird beendet.
Fehlgeschlagen Der Replikationsjob ist aufgrund schwerwiegender Fehler fehlgeschlagen.

Tabellenstatus

Konzept Beschreibung
Snapshot wird erstellt Der Replikationsjob erstellt vor dem Replizieren von Änderungen einen Snapshot des aktuellen Status der Tabelle.
Replikation Der Replikationsjob repliziert Änderungen aus der Quelltabelle in die Zieltabelle.
Fehler Der Replikationsjob kann Änderungen aus der Quelltabelle aufgrund eines Fehlers nicht replizieren.

Messwerte

Konzept Beschreibung
Einfügungen Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Updates Die Anzahl der Aktualisierungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Löschvorgänge Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
DDLs Die Anzahl der DDL-Änderungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Durchsatz Die Anzahl der Ereignisse und die Anzahl der Byte, die im ausgewählten Zeitraum am Ziel repliziert wurden.
Latenz Die Latenz, zu der Daten im ausgewählten Zeitraum am Ziel repliziert werden.

Komponenten

Komponente Beschreibung
Dienst Überwacht die End-to-End-Orchestrierung von Replikationsjobs und bietet Funktionen zum Entwerfen, Bereitstellen, Verwalten und Überwachen von Replikationsjobs. Sie wird im Cloud Data Fusion-Mandantenprojekt ausgeführt (das Mandantenprojekt ist für den Nutzer ausgeblendet). Der Status wird auf der Seite „Systemadministrator“ der Cloud Data Fusion-Weboberfläche angezeigt.
Zustandsverwaltung Der Dienst verwaltet den Status jedes Replikationsjobs in einem Cloud Storage-Bucket im Kundenprojekt. Der Bucket kann beim Erstellen des Replikationsjobs konfiguriert werden. In diesem Tool werden die aktuellen Offsets und der Replikationsstatus jedes Replikationsjobs gespeichert.
Ausführung Dataproc-Cluster stellen die Ausführungsumgebung von Replikationsjobs bereit, die in Ihrem Projekt ausgeführt werden. Replikationsjobs werden mit CDAP-Workern ausgeführt. Die Größe und Eigenschaften der Ausführungsumgebung werden mit Compute Engine-Profilen konfiguriert.
Quelldatenbank Betriebsdatenbank für die Produktion, die in die Zieldatenbank repliziert wird Diese Datenbank kann sich lokal oder in Google Cloudbefinden. Cloud Data Fusion Replication unterstützt MySQL-, Microsoft SQL Server- und Oracle-Quelldatenbanken.
Lösung zur Änderungsverfolgung Anstatt auf einem Agent ausgeführt zu werden, der auf der Quelldatenbank ausgeführt wird, benötigt Cloud Data Fusion eine Änderungsverfolgungslösung, um Änderungen in der Quelldatenbank zu lesen. Die Lösung kann eine Komponente der Quelldatenbank oder eine separat lizenzierte Drittanbieterlösung sein. Im letzteren Fall wird die Änderungsverfolgungslösung lokal, in der Quelldatenbank oder in Google Cloudausgeführt. Jede Quelle muss einer Änderungsverfolgungslösung zugeordnet sein.
  1. SQL Server
    • Unterstützte Lösung: SQL Server CDC (Tabellen zur Änderungsverfolgung)
    • Zusätzliche Software: Nein
    • Lizenz/Kosten:
    • Kommentare: Verfügbare SQL Server 2016 und höher
  2. MySQL
    • Unterstützte Lösung: MySQL-Binärlog
    • Zusätzliche Software: Nein
    • Lizenz/Kosten:
    • Kommentare:
  3. Oracle
    • Unterstützte Lösung: Oracle LogMiner
    • Zusätzliche Software: Nein
    • Lizenz/Kosten:
    • Kommentare: Siehe die von Datastream unterstützten Versionen
Zieldatenbank Der Zielspeicherort für die Replikation und die Analyse. Cloud Data Fusion unterstützt die BigQuery-Zieldatenbank.
Authentifizierung Die Authentifizierungsmechanismen variieren je nach Quelldatenbank oder Änderungsverfolgungssoftware. Bei Verwendung der integrierten Funktionen von Quelldatenbanken wie SQL Server und MySQL werden Datenbankanmeldungen zur Authentifizierung verwendet. Wenn Sie Änderungsverfolgungssoftware verwenden, wird der Authentifizierungsmechanismus der Software verwendet.

Verbindung

In der folgenden Tabelle werden die für die Replikation erforderlichen Netzwerkverbindungen und entsprechenden Sicherheitsmechanismen beschrieben.

Von To Optional Protokoll Netzwerk Auth-Sicherheit Zweck
Dienst (Mandantenprojekt) Quelldatenbank Ja Hängt von der Replikationsquelle ab. JDBC für direkte Datenbankverbindung. Peering + Firewallregeln + VPN/Interconnect + Router DB-Anmeldung Wird beim Entwurf, nicht bei der Ausführung benötigt, Zeitfunktionen: Tabellenauflistung, Bewertung (optionale Schritte; Replikation kann ohne sie fortgesetzt werden)
Dienst (Mandantenprojekt) Cloud Storage Nein Cloud API VPC-SC IAM Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt) Quelldatenbank Nein Je nach Quelle. JDBC für direkte DB-Verbindung. Peering + Firewallregeln + VPN/Interconnect + Router DB-Anmeldung Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank zu lesen und an das Ziel zu replizieren
Dataproc (Ihr Projekt) Cloud Storage Nein Cloud API VPC-SC IAM Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt) BigQuery Nein Cloud API VPC-SC IAM Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank auf das Ziel anzuwenden

Nächste Schritte