Replikation

Mit Cloud Data Fusion Replication können Sie Ihre Daten kontinuierlich und in Echtzeit von operativen Datenspeichern wie SQL Server und MySQL in BigQuery replizieren.

Um die Replikation zu verwenden, können Sie eine neue Instanz von Cloud Data Fusion erstellen und die Replikations-App hinzufügen oder die Replikationsanwendung einer vorhandenen Instanz hinzufügen. Anleitungen für MySQL, SQL Server und Oracle

Dies sind die wichtigsten Vorteile:

  • Eine einfache Schnittstelle für ETL-Entwickler und Datenanalysten zur Einrichtung von Replikationsjobs

  • Hilft Ihnen, Schemainkompatibilitäten, Konnektivitätsprobleme und fehlende Funktionen vor der Replikation zu ermitteln und bietet dann Korrekturmaßnahmen.

  • Sie können die neuesten operativen Daten in Echtzeit für die Analyse in BigQuery verwenden. Sie verwenden die Log-basierte Replikation direkt aus Microsoft SQL Server (mit SQL Server-CDC) und MySQL (mit MySQL Binärprogramm). auf.

  • Change Data Capture (CDC) bietet eine Darstellung der Daten, die sich in einem Stream geändert haben. So können sich Berechnungen und Verarbeitungen auf die zuletzt geänderten Datensätze konzentrieren, wodurch der ausgehende Traffic für vertrauliche Daten in der Produktion minimiert wird. Systeme verbunden werden.

  • Die Unternehmensskalierung zur Unterstützung von transaktionalen Transaktionsdatenbanken mit hohem Volumen wird anfangs für die Snapshot-Replikation ohne Ausfallzeiten unterstützt, damit das Data Warehouse kontinuierlich Änderungen verarbeiten kann. Sobald der erste Snapshot erstellt wurde, beginnt die kontinuierliche Replikation von Änderungen mit hohem Durchsatz und beginnt in Echtzeit. Bei der öffentlichen Vorschau kann die Funktion bis zu 50 GB Transaktionen pro Stunde unterstützen.

  • Mit den Dashboards erhalten Sie Echtzeitinformationen zur Replikationsleistung. Dies ist nützlich, um Engpässe zu erkennen und SLAs zur Datenübermittlung zu überwachen.

  • Dazu gehört die Unterstützung von Datenstandorten, vom Kunden verwalteten Verschlüsselungsschlüsseln (Customer-Managed Encryption Keys, CMEK) und von VPC Service Controls. Durch die Einbindung von Cloud Data Fusion in Google Cloud wird sichergestellt, dass die höchsten Sicherheits- und Datenschutzfunktionen von Unternehmen beobachtet werden und die neuesten Daten in Ihrem Data Warehouse zur Analyse verfügbar sind.

Wenn die Replikation ausgeführt wird, werden Ihnen der Dataproc-Cluster in Rechnung gestellt und die Verarbeitungskosten für BigQuery fallen an. Zur Optimierung dieser Kosten empfehlen wir die Verwendung der Pauschalpreise für BigQuery.

Weitere Informationen finden Sie auf der Preisseite für Cloud Data Fusion.

Replikationsentitäten

Entity Beschreibung
Replikation Die Replikation ist eine Funktion von Cloud Data Fusion, die es ermöglicht, Daten mit geringer Latenz von betrieblichen Datenspeichern in analytische Data Warehouses zu replizieren. Replikationsjob erstellen, indem Sie eine Quelle und ein Ziel mit optionalen Transformationen konfigurieren
Quelle Lies Ereignisse zu Datenbank, Tabelle oder Spaltenänderung und stellt sie für eine weitere Verarbeitung in einem Replikationsjob zur Verfügung. Ein Replikationsjob enthält eine Quelle, die zum Bereitstellen der Änderungen eine Lösung zur Erfassung von Änderungen benötigt. Eine Datenbank kann mehrere Quellen mit jeweils einer anderen Lösung zur Erfassung von Änderungen haben. Eine Quelle ist ein modulierbares Modul, das mit der Plug-in-Architektur von CDAP erstellt wurde. Wenn eine Quelle nicht für Ihre Anforderungen verfügbar ist, können Sie eine eigene erstellen, indem Sie die Quellschnittstelle implementieren und diese dann in CDAP oder Cloud Data Fusion hochladen.
Ziel Schreibt von einer Quelle empfangene Änderungen in eine Zieldatenbank. Ein Replikationsjob enthält ein Ziel. Ein Ziel ist ein modulares Modul, das mit der Plug-in-Architektur von CDAP erstellt wurde. Wenn für Ihre Anforderungen kein Ziel verfügbar ist, können Sie ein eigenes Ziel erstellen, indem Sie die Zielschnittstelle implementieren und sie dann in CDAP oder Cloud Data Fusion hochladen.
Quellattribute Konfiguriert die Quelle, einschließlich Verbindungsdetails, Quelldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Zieleigenschaften Konfiguriert das Ziel, einschließlich Verbindungsdetails, Zieldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Replikationsjobattribute Konfiguriert den Replikationsjob, einschließlich Fehlerschwellenwerten, Staging-Bereichen, Benachrichtigungen und Validierungseinstellungen.
Entwurf Ein gespeicherter, teilweise abgeschlossener Replikationsjob. Wenn die Replikationsjobdefinition abgeschlossen ist, kann sie gestartet werden.
Veranstaltungen Ereignisse in der Quelle ändern, die in das Ziel repliziert werden sollen Ereignisse umfassen Einfügungen, Aktualisierungen, Löschvorgänge und Änderungen von DDL ( Data Definition Language).
Einfügen Neue Einträge in der Quelle hinzugefügt.
Aktualisieren Aktualisieren Sie vorhandene Datensätze in der Quelle.
Löschen Vorhandene Datensätze in der Quelle werden entfernt.
DDL-Änderung Ein Ereignis, das eine Schemaänderung enthält, z. B. eine Änderung des Datentyps oder -namens.
Logs Die Betriebslogs eines Replikationsjobs.
Replikationsjobdetails Detailseite mit Replikationsjobdaten, z. B. aktueller Status, Betriebsmesswerte, Verlaufsansicht im Zeitverlauf, Validierungsergebnisse und Konfiguration.
Dashboard Eine Seite, auf der der Status aller Änderungsaktivitätsaktivitäten, einschließlich Durchsatz, Latenz, Fehlerraten und Validierungsergebnissen, aufgelistet wird.

Aktionen

Aktionen Beschreibung
Bereitstellen Erstellen eines neuen Replikationsjobs. Dazu folgen Sie einen UI-Ablauf und geben eine Quelle, ein Ziel sowie dessen Konfiguration an.
Speichern Speichern eines teilweise erstellten Replikationsjobs, um die Erstellung zu einem späteren Zeitpunkt fortzusetzen.
Löschen Vorhandenen Replikationsjob löschen Nur beendete Pipelines können gelöscht werden.
Start Replikationsjob starten Der Replikationsjob wechselt in den aktiven Status, wenn Änderungen verarbeitet werden müssen. Andernfalls tritt er in den Wartestatus ein.
Beenden Replikationsjob anhalten Der Replikationsjob beendet die Verarbeitung von Änderungen aus der Quelle.
Logs ansehen Logs eines Replikationsjobs zur Fehlerbehebung oder für andere Analysen aufrufen
Suche Nach Replikationsjob anhand des Namens, der Beschreibung oder anderer Metadaten des Replikationsjobs suchen
Bewerten Die Auswirkungen der Replikation vor Start der Replikation bewerten Die Bewertung eines Replikationsjobs generiert einen Bewertungsbericht, der Schemainkompatibilitäten und fehlende Features kennzeichnet.

Monitoring

Replikatstatus Beschreibung
Bereitgestellt Der Replikationsjob wird bereitgestellt, aber nicht gestartet. In diesem Status repliziert ein Replikationsjob keine Ereignisse.
Von Der Replikationsjob wird initialisiert und kann zur Replikation von Änderungen nicht bereit sein.
Läuft Der Replikationsjob wird gestartet und die Änderungen werden repliziert.
Beendet Der Replikationsjob wurde angehalten.
Fehler Der Replikationsjob konnte aufgrund von schwerwiegenden Fehlern nicht ausgeführt werden.

Tabellenstatus

Konzept Beschreibung
Erstellen von Snapshots Der Replikationsjob erstellt einen Snapshot des aktuellen Zustands der Tabelle, bevor die Änderungen repliziert werden.
Replikation Der Replikationsjob repliziert Änderungen aus der Quelltabelle in die Zieltabelle.
Fehler Der Replikationsjob kann aufgrund eines Fehlers keine Änderungen aus der Quelltabelle replizieren.

Messwerte

Konzept Beschreibung
Beilagen Die Anzahl der Einfügungen, die auf das Ziel im ausgewählten Zeitraum angewendet wurden.
Updates Die Anzahl der Aktualisierungen, die auf das Ziel im ausgewählten Zeitraum angewendet wurden.
Löschvorgänge Die Anzahl der Löschvorgänge, die auf das Ziel im ausgewählten Zeitraum angewendet wurden.
DDL Die Anzahl der DDL-Änderungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Durchsatz Die Anzahl der Ereignisse und die Anzahl der Byte, die im ausgewählten Zeitraum auf das Ziel repliziert wurden.
Latenz Die Latenz, mit der Daten im ausgewählten Zeitraum auf das Ziel repliziert werden

Komponenten

Komponente Beschreibung
Dienst Überschaut die End-to-End-Orchestrierung von Replikationsjobs und bietet Funktionen zum Entwerfen, Bereitstellen, Verwalten und Monitoring von Replikationsjobs. Sie wird im Cloud Data Fusion-Mandantenprojekt ausgeführt (das Mandantenprojekt wird für den Nutzer ausgeblendet). Der Status wird auf der Cloud Data Fusion-UI auf der SYSTEM-ADMIN-Seite angezeigt.
Zustandsverwaltung Der Dienst verwaltet den Status jedes Replikationsjobs in einem Cloud Storage-Bucket im Kundenprojekt. Der Bucket kann beim Erstellen des Replikationsjobs konfiguriert werden. Der aktuelle Offset und der Replikationsstatus jedes Replikationsjobs werden gespeichert.
Ausführung Dataproc-Cluster bieten die Ausführungsumgebung der Replikationsjobs, die in Ihrem Projekt ausgeführt werden. Replikationsjobs werden mit CDAP-Workern ausgeführt. Die Größe und Merkmale der Ausführungsumgebung werden mit Compute Engine-Profilen konfiguriert.
Quelldatenbank Ihre operative Produktionsdatenbank zur Replikation in Ihrer Zieldatenbank. Diese Datenbank kann sich lokal oder in Google Cloud befinden. Cloud Data Fusion Replication unterstützt MySQL und Microsoft SQL Server als Quelldatenbanken.
Tracking-Lösung ändern Anstatt auf einem Agent auszuführen, der in der Quelldatenbank ausgeführt wird, benötigt Cloud Data Fusion eine Änderungsverfolgungslösung, um Änderungen in der Quelldatenbank zu lesen. Die Lösung kann eine Komponente der Quelldatenbank oder eine separat lizenzierte Drittanbieterlösung sein. Im letzteren Fall wird die Änderungsverfolgung lokal ausgeführt, gemeinsam mit der Quelldatenbank oder in Google Cloud gespeichert. Jede Quelle muss mit einer Änderungsverfolgungslösung verknüpft sein.
  1. SQL Server
    • Unterstützte Lösung: SQL Server-CDC (Tracking-Tabellen ändern)
    • Zusätzliche Software:Nein
    • Lizenz/Kosten:nicht zutreffend
    • Kommentare: ab SQL Server 2016 und höher verfügbar
  2. MySQL
    • Unterstützte Lösung: Binäres MySQL-Log
    • Zusätzliche Software:Nein
    • Lizenz/Kosten:nicht zutreffend
    • Kommentare:nicht zutreffend
Zieldatenbank Der Zielspeicherort für die Replikation und Analyse. Cloud Data Fusion unterstützt die BigQuery-Zieldatenbank.
Authentication Die Authentifizierungsmechanismen variieren je nach Quelldatenbank oder Änderungsverfolgungssoftware. Wenn die integrierten Funktionen von Quelldatenbanken wie SQL Server und MySQL verwendet werden, werden Datenbankanmeldungen zur Authentifizierung verwendet. Bei Verwendung einer Änderungsverfolgungssoftware wird der Authentifizierungsmechanismus der Software verwendet.

Verbindung

In der folgenden Tabelle werden die für die Replikation erforderlichen Netzwerkverbindungen und die verwendeten Sicherheitsmechanismen beschrieben.

Von To Optional Protokoll Netzwerk Auth-Sicherheit Zweck
Dienst (Mandantenprojekt) Quelldatenbank Ja Abhängig von der Replikationsquelle. JDBC für die direkte Datenbankverbindung. Peering + Firewallregeln + VPN/Interconnect + Router Datenbankanmeldung Erforderlich in Entwurf, nicht bei Ausführung, Zeit Funktionen: Tabellenliste, Bewertung (optionale Schritte, Replikation kann ohne diese fortgesetzt werden)
Dienst (Mandantenprojekt) Cloud Storage Nein Cloud API VPC-SC IAM Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt) Quelldatenbank Nein Abhängig von der Quelle. JDBC für direkte DB-Verbindungen. Peering + Firewallregeln + VPN/Interconnect + Router Datenbankanmeldung Wird zum Zeitpunkt der Ausführung benötigt, um Änderungen aus der Quelldatenbank zu lesen und in das Ziel zu replizieren
Dataproc (Ihr Projekt) Cloud Storage Nein Cloud API VPC-SC IAM Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt) BigQuery Nein Cloud API VPC-SC IAM Wird zum Zeitpunkt der Ausführung benötigt, um Änderungen aus der Quelldatenbank auf das Ziel anzuwenden

Nächste Schritte