Replikation

Mit Cloud Data Fusion-Replikation können Sie Ihre Daten replizieren kontinuierlich und in Echtzeit aus operativen Datenspeichern wie SQL Server und MySQL in BigQuery importieren können.

Wählen Sie eine der folgenden Methoden aus, um Replikation zu verwenden:

  • Erstellen Sie eine neue Instanz von Cloud Data Fusion und fügen Sie den Replikationsanwendung.
  • Replikationsanwendung zu einer vorhandenen Instanz hinzufügen

Dies sind die wichtigsten Vorteile:

  • Schemainkompatibilitäten, Konnektivitätsprobleme und fehlende Schemata identifizieren vor dem Start der Replikation und bietet dann Korrekturmaßnahmen.

  • Die Nutzung der neuesten Betriebsdaten in Echtzeit für Analysen innerhalb BigQuery Sie verwenden die logbasierte Replikation direkt von BigQuery aus Microsoft SQL Server (mit SQL Server CDC) und MySQL (mit MySQL Binary Log).

  • Change Data Capture (CDC), die eine Darstellung von Daten bietet, die sich geändert haben in einem Stream, wodurch sich Berechnungen und Verarbeitung auf die zuletzt geänderten Datensätze. Dadurch werden Kosten für ausgehende Daten auf sensible Produktionssysteme.

  • Skalierbarkeit des Unternehmens, die transaktionale Datenbanken mit hohem Volumen unterstützt, anfänglich Datenladevorgänge in BigQuery werden ohne Ausfallzeiten unterstützt. Snapshot-Replikation, um das Data Warehouse auf die Verarbeitung von Änderungen vorzubereiten kontinuierlich zu ändern. Nach Abschluss des ersten Snapshots wird ein kontinuierlicher Die Replikation von Änderungen beginnt in Echtzeit.

  • Mit den Dashboards erhalten Sie in Echtzeit Informationen zur Replikationsleistung. Es ist nützlich, um Engpässe zu identifizieren und SLAs zur Datenübermittlung zu überwachen.

  • Einschließlich Unterstützung für Datenstandorte und vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK) und VPC Service Controls. Einbindung von Cloud Data Fusion in Google Cloud sorgt für ein Höchstmaß an Unternehmenssicherheit Privatsphäre, während die neuesten Daten in Ihren Daten verfügbar gemacht werden Data Warehouse für die Analyse.

Dataproc wird Ihnen bei der Ausführung von Replikation in Rechnung gestellt. und es entstehen Verarbeitungskosten für BigQuery. Zur Optimierung dieser Kosten empfehlen wir dringend, BigQuery-Pauschalpreise zu verwenden.

Weitere Informationen finden Sie auf der Seite Preise für Cloud Data Fusion.

Replikationsentitäten

Entity Beschreibung
Replikation Replikation ist eine Funktion von Cloud Data Fusion die es möglich macht, Daten kontinuierlich mit niedriger Latenz zu replizieren. von operativen Datenspeichern zu analytischen Data Warehouses. Erstellen: Replikationsjob durch Konfigurieren eines Quelle und ein Ziel mit optionalen Transformationen.
Quelle Liest Datenbank-, Tabellen- oder Spaltenänderungsereignisse und macht sie für die weitere Verarbeitung in einem Replikationsjob verfügbar. A Replikationsjob enthält die auf einer Change-Capture-Lösung basiert, die Änderungen vor. Für eine Datenbank können mehrere Quellen mit jeweils einer anderen Änderungserfassungslösung vorhanden sein. Eine Quelle ist ein Plug-in-Modul, das mit dem Plug-in erstellt wurde Architektur von CDAP. Wenn eine Quelle nicht Ihren Anforderungen entspricht, können Sie eine eigene erstellen, indem Sie die Quellschnittstelle implementieren und diese dann in CDAP oder Cloud Data Fusion hochladen.
Ziel Schreibt Änderungen, die von einer Quelle empfangen wurden, in eine Zieldatenbank. Ein Replikationsjob enthält ein Ziel. Ein Ziel ist ein modulares Modul, das mit dem Plug-in erstellt wurde. Architektur von CDAP. Wenn ein Ziel nicht Ihren Anforderungen entspricht, können Sie ein eigenes erstellen. Implementieren Sie dazu die Zielschnittstelle und laden Sie es dann in CDAP oder Cloud Data Fusion hoch.
Quellattribute Konfiguriert die Quelle, einschließlich Verbindungsdetails, Quelldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Zielattribute Konfiguriert das Ziel, einschließlich Verbindungsdetails, Zieldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute.
Attribute des Replikationsjobs Konfiguriert den Replikationsjob einschließlich Fehlerschwellenwerten, Staging-Bereiche, Benachrichtigungen und Validierungseinstellungen.
Entwurf Ein gespeicherter, teilweise abgeschlossener Replikationsjob. Wenn der Parameter Definition des Replikationsjobs abgeschlossen ist, kann er gestartet werden.
Veranstaltungen Ereignisse in der Quelle ändern, die zum Ziel repliziert werden sollen Veranstaltungen Einfügungen, Aktualisierungen, Löschungen und DDL (Data Definition Language, Datendefinitionssprache) einschließen Änderungen.
Einfügen Hinzufügen neuer Einträge in der Quelle.
Aktualisieren Aktualisieren vorhandener Datensätze in der Quelle.
Löschen Entfernen vorhandener Datensätze in der Quelle
DDL-Änderung Ein Ereignis, das eine Schemaänderung enthält, z. B. eine Änderung des Datentyps oder des Namens.
Logs Die Betriebslogs eines Replikationsjobs.
Details zum Replikationsjob Eine Detailseite mit Informationen zum Replikationsjob, z. B. aktueller Status, betriebliche Messwerte, Verlaufsansicht im Zeitverlauf, Validierung der Ergebnisse und der Konfiguration.
Dashboard Eine Seite mit dem Status aller CDC-Aktivitäten, einschließlich Durchsatz, Latenz, Fehlerraten und Validierungsergebnisse.

Aktionen

Aktionen Beschreibung
Bereitstellen Neuen Replikationsjob mithilfe einer Weboberfläche erstellen um eine Quelle, ein Ziel und deren Konfiguration anzugeben.
Speichern Einen teilweise erstellten Replikationsjob zum Fortsetzen speichern erstellen können.
Löschen Einen vorhandenen Replikationsjob löschen. Nur angehaltene Pipelines können gelöscht werden.
Start Replikationsjob starten Wenn Änderungen erforderlich sind, wird der Replikationsjob in den Status "Aktiv" versetzt. Andernfalls wechselt er in den Status „Warten“.
Beenden Replikationsjob anhalten Replikationsjob beendet die Verarbeitung von Änderungen aus der Quelle.
Logs ansehen Logs eines Replikationsjobs zur Fehlerbehebung ansehen oder andere Analysen.
Suchen Die Suche nach einem Replikationsjob anhand seines Namens, oder andere Metadaten des Replikationsjobs.
Bewerten Auswirkungen der Replikation vor dem Start der Replikation bewerten. Beim Bewerten eines Replikationsjobs wird ein Bewertungsbericht generiert, kennzeichnet Schemainkompatibilitäten und fehlende Features.

Monitoring

Replikatstatus Beschreibung
Bereitgestellt Der Replikationsjob wird bereitgestellt, aber nicht gestartet. In diesem Status repliziert ein Replikationsjob keine Ereignisse.
Wird gestartet Der Replikationsjob wird initialisiert und ist nicht Änderungen nachzubilden.
Wird ausgeführt Der Replikationsjob wird gestartet und wird repliziert Änderungen.
Wird beendet Der Replikationsjob wird beendet.
Gestoppt Der Replikationsjob wurde beendet.
Fehlgeschlagen Der Replikationsjob ist aufgrund schwerwiegender Fehler fehlgeschlagen.

Tabellenstatus

Konzept Beschreibung
Snapshot wird erstellt Der Replikationsjob erstellt einen Snapshot des aktuellen der Tabelle vor dem Replizieren von Änderungen.
Replikation Der Replikationsjob repliziert Änderungen aus der Quelle in die Zieltabelle übertragen.
Fehler Der Replikationsjob kann Änderungen aus dem Quelltabelle.

Messwerte

Konzept Beschreibung
Einfügungen Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Updates Die Anzahl der Aktualisierungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Löschvorgänge Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
DDLs Die Anzahl der DDL-Änderungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden.
Durchsatz Die Anzahl der Ereignisse und die Anzahl der Byte, die im ausgewählten Zeitraum am Ziel repliziert wurden.
Latenz Die Latenz, zu der Daten im ausgewählten Zeitraum am Ziel repliziert werden.

Komponenten

Komponente Beschreibung
Dienst Überwacht die End-to-End-Orchestrierung von Replikationsjobs, und bietet Funktionen zum Entwerfen, Bereitstellen, Verwalten Monitoring von Replikationsjobs. Sie wird im Cloud Data Fusion-Mandantenprojekt ausgeführt (das Mandantenprojekt ist für den Nutzer ausgeblendet). Sein Status wird auf der Seite **Systemadmin** der der Weboberfläche von Cloud Data Fusion.
Zustandsverwaltung Der Dienst verwaltet den Status jedes Replikationsjobs in einem Cloud Storage-Bucket im Kundenprojekt. Der Bucket kann die beim Erstellen des Replikationsjobs konfiguriert wurde. Sie speichert die aktuelle Offsets und Replikationsstatus der einzelnen Replikationsjob.
Ausführung Dataproc-Cluster stellen die Ausführungsumgebung von Replikationsjobs, die in Ihrem Projekt ausgeführt werden. Replikationsjobs werden ausgeführt mit <ph type="x-smartling-placeholder"></ph> CDAP-Worker. Die Größe und Merkmale der Ausführung werden mit Compute Engine-Profilen konfiguriert.
Quelldatenbank Betriebsdatenbank für die Produktion, die in die Zieldatenbank repliziert wird Diese Datenbank kann sich lokal oder in Google Cloud befinden. Cloud Data Fusion Replication unterstützt MySQL-, Microsoft SQL Server- und Oracle-Quelldatenbanken.
Lösung zur Änderungsverfolgung Anstatt auf einem Agent ausgeführt zu werden, der auf der Quelldatenbank ausgeführt wird, benötigt Cloud Data Fusion eine Änderungsverfolgungslösung, um Änderungen in der Quelldatenbank zu lesen. Die Lösung kann eine Komponente der Quelldatenbank oder eine separat lizenzierte Drittanbieterlösung sein. Im letzteren Fall wird die Änderungsverfolgungslösung lokal, in der Quelldatenbank oder in Google Cloud ausgeführt. Jede Quelle muss einer Änderungsverfolgungslösung zugeordnet sein.
  1. SQL Server
    • Unterstützte Lösung: SQL Server CDC (Tabellen zur Änderungsverfolgung)
    • Zusätzliche Software: Nein
    • Lizenz/Kosten:
    • Kommentare: Verfügbare SQL Server 2016 und höher
  2. MySQL
    • Unterstützte Lösung: MySQL-Binärlog
    • Zusätzliche Software: Nein
    • Lizenz/Kosten:
    • Kommentare:
  3. Oracle
Zieldatenbank Der Zielspeicherort für die Replikation und die Analyse. Cloud Data Fusion unterstützt die BigQuery-Zieldatenbank.
Authentifizierung Die Authentifizierungsmechanismen variieren je nach Quelldatenbank oder Änderungsverfolgungssoftware. Bei Verwendung der integrierten Funktionen von Quelldatenbanken wie SQL Server und MySQL werden Datenbankanmeldungen zur Authentifizierung verwendet. Wenn Sie Änderungsverfolgungssoftware verwenden, Authentifizierungsmechanismus der Software verwendet wird.

Verbindung

In der folgenden Tabelle werden die für die Replikation erforderlichen Netzwerkverbindungen und entsprechenden Sicherheitsmechanismen beschrieben.

Von To Optional Protokoll Netzwerk Auth-Sicherheit Zweck
Dienst (Mandantenprojekt) Quelldatenbank Ja Hängt von der Replikationsquelle ab. JDBC für direkte Datenbankverbindung. Peering + Firewallregeln + VPN/Interconnect + Router DB-Anmeldung Wird beim Entwurf, nicht bei der Ausführung benötigt, Zeitfunktionen: Tabellenauflistung, Bewertung (optionale Schritte; Replikation kann ohne sie fortgesetzt werden)
Dienst (Mandantenprojekt) Cloud Storage Nein Cloud API VPC-SC IAM Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt) Quelldatenbank Nein Je nach Quelle. JDBC für direkte DB-Verbindung. Peering + Firewallregeln + VPN/Interconnect + Router DB-Anmeldung Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank zu lesen und an das Ziel zu replizieren
Dataproc (Ihr Projekt) Cloud Storage Nein Cloud API VPC-SC IAM Zustandsverwaltung: Offsets, Replikationsstatus
Dataproc (Ihr Projekt) BigQuery Nein Cloud API VPC-SC IAM Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank auf das Ziel anzuwenden

Nächste Schritte