Mit der Cloud Data Fusion-Replikation können Sie Ihre Daten kontinuierlich und in Echtzeit aus operativen Datenspeichern wie SQL Server und MySQL in BigQuery replizieren.
Wählen Sie eine der folgenden Methoden aus, um Replikation zu verwenden:
- Erstellen Sie eine neue Instanz von Cloud Data Fusion und fügen Sie die Replikationsanwendung hinzu.
- Replikationsanwendung zu einer vorhandenen Instanz hinzufügen
Dies sind die wichtigsten Vorteile:
Das Identifizieren von Schemainkompatibilitäten, Verbindungsproblemen und fehlenden Features vor dem Start der Replikation und entsprechende Korrekturmaßnahmen.
Aktuelle Betriebsdaten in Echtzeit zur Analyse in BigQuery verwenden Sie verwenden die logbasierte Replikation direkt von BigQuery aus Microsoft SQL Server (mit SQL Server CDC) und MySQL (mit MySQL Binary Log).
Change Data Capture (CDC) bietet eine Darstellung von Daten, die sich in einem Stream geändert haben, sodass sich Berechnungen und Verarbeitung speziell auf die zuletzt geänderten Datensätze konzentrieren können. Dadurch werden die Kosten für ausgehende Daten auf vertraulichen Produktionssystemen minimiert.
Skalierbarkeit des Unternehmens, die Transaktionsdatenbanken mit hohem Volumen unterstützt. Die anfänglichen Datenladevorgänge in BigQuery werden mit Snapshot-Replikation ohne Ausfallzeiten unterstützt, um das Data Warehouse für die kontinuierliche Verarbeitung von Änderungen bereit zu machen. Sobald der erste Snapshot abgeschlossen ist, beginnt die kontinuierliche Replikation von Änderungen mit hohem Durchsatz in Echtzeit.
Mit den Dashboards erhalten Sie in Echtzeit Informationen zur Replikationsleistung. Es ist nützlich, um Engpässe zu identifizieren und SLAs zur Datenübermittlung zu überwachen.
Einschließlich Unterstützung für Datenstandorte, vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) und VPC Service Controls. Durch die Einbindung von Cloud Data Fusion in Google Cloud wird sichergestellt, dass ein Höchstmaß an Unternehmenssicherheit und Datenschutz gewährleistet ist und gleichzeitig die neuesten Daten für Analysen in Ihrem Data Warehouse bereitgestellt werden.
Empfohlene Preise
Wenn Replikation ausgeführt wird, werden Ihnen der Dataproc-Cluster und die Verarbeitungskosten für BigQuery in Rechnung gestellt. Zur Optimierung dieser Kosten empfehlen wir dringend, BigQuery-Pauschalpreise zu verwenden.
Weitere Informationen finden Sie auf der Seite Preise für Cloud Data Fusion.
Replikationsentitäten
Entity | Beschreibung |
---|---|
Replikation | Die Replikation ist eine Funktion von Cloud Data Fusion, die es ermöglicht, Daten kontinuierlich bei niedriger Latenz aus operativen Datenspeichern in analytische Data Warehouses zu replizieren. Erstellen Sie einen Replikationsjob. Konfigurieren Sie dazu eine Quelle und ein Ziel mit optionalen Transformationen. |
Quelle | Liest Änderungsereignisse von Datenbanken, Tabellen oder Spalten und stellt sie für die weitere Verarbeitung in einem Replikationsjob zur Verfügung. Ein Replikationsjob enthält eine Quelle, die die Änderungen mithilfe einer Änderungserfassungslösung bereitstellt. Für eine Datenbank können mehrere Quellen mit jeweils einer anderen Änderungserfassungslösung vorhanden sein. Eine Quelle ist ein Plug-in-Modul, das mit der Plug-in-Architektur von CDAP erstellt wurde. Wenn eine Quelle nicht Ihren Anforderungen entspricht, können Sie eine eigene erstellen, indem Sie die Quellschnittstelle implementieren und diese dann in CDAP oder Cloud Data Fusion hochladen. |
Ziel | Schreibt Änderungen, die von einer Quelle empfangen wurden, in eine Zieldatenbank. Ein Replikationsjob enthält ein Ziel. Ein Ziel ist ein Plug-in-Modul, das mit der Plug-in-Architektur von CDAP erstellt wurde. Wenn ein Ziel nicht Ihren Anforderungen entspricht, können Sie ein eigenes erstellen. Implementieren Sie dazu die Zielschnittstelle und laden Sie es dann in CDAP oder Cloud Data Fusion hoch. |
Quellattribute | Konfiguriert die Quelle, einschließlich Verbindungsdetails, Quelldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute. |
Zielattribute | Konfiguriert das Ziel, einschließlich Verbindungsdetails, Zieldatenbank- und Tabellennamen, Anmeldedaten und anderer Attribute. |
Attribute des Replikationsjobs | Konfiguriert den Replikationsjob einschließlich Fehlerschwellenwerten, Staging-Bereichen, Benachrichtigungen und Validierungseinstellungen. |
Entwurf | Ein gespeicherter, teilweise abgeschlossener Replikationsjob. Wenn die Definition des Replikationsjobs abgeschlossen ist, kann er gestartet werden. |
Veranstaltungen | Ereignisse in der Quelle ändern, die zum Ziel repliziert werden sollen Ereignisse umfassen Einfügungen, Aktualisierungen, Löschungen und DDL-Änderungen (Data Definition Language). |
Einfügen | Hinzufügen neuer Einträge in der Quelle. |
Aktualisieren | Aktualisieren vorhandener Datensätze in der Quelle. |
Löschen | Entfernen vorhandener Datensätze in der Quelle |
DDL-Änderung | Ein Ereignis, das eine Schemaänderung enthält, z. B. eine Änderung des Datentyps oder des Namens. |
Logs | Die Betriebslogs eines Replikationsjobs. |
Details zum Replikationsjob | Eine Detailseite mit Informationen zum Replikationsjob, darunter der aktuelle Status, Betriebsmesswerte, Verlaufsansicht im Zeitverlauf, Validierungsergebnisse und Konfiguration. |
Dashboard | Eine Seite mit dem Status aller CDC-Aktivitäten, einschließlich Durchsatz, Latenz, Fehlerraten und Validierungsergebnisse. |
Aktionen
Aktionen | Beschreibung |
---|---|
Bereitstellen | Neuen Replikationsjob erstellen, indem Sie dem Ablauf einer Weboberfläche folgen, um eine Quelle, ein Ziel und deren Konfiguration anzugeben. |
Speichern | Speichern eines teilweise erstellten Replikationsjobs, um die Erstellung später fortzusetzen. |
Löschen | Einen vorhandenen Replikationsjob löschen. Nur angehaltene Pipelines können gelöscht werden. |
Starten | Replikationsjob starten Wenn Änderungen verarbeitet werden müssen, wechselt der Replikationsjob in den Status „Aktiv“. Andernfalls wechselt er in den Status „Warten“. |
Beenden | Replikationsjob anhalten Der Replikationsjob beendet die Verarbeitung von Änderungen aus der Quelle. |
Logs ansehen | Logs eines Replikationsjobs zur Fehlerbehebung oder für andere Analysen ansehen |
Suchen | Suche nach einem Replikationsjob anhand seines Namens, seiner Beschreibung oder anderer Metadaten des Replikationsjobs. |
Evaluieren | Auswirkungen der Replikation vor dem Start der Replikation bewerten. Beim Bewerten eines Replikationsjobs wird ein Bewertungsbericht generiert, der Schemainkompatibilitäten und fehlende Features kennzeichnet. |
Monitoring
Replikatstatus | Beschreibung |
---|---|
Bereitgestellt | Der Replikationsjob wird bereitgestellt, aber nicht gestartet. In diesem Status repliziert ein Replikationsjob keine Ereignisse. |
Wird gestartet | Der Replikationsjob wird initialisiert und ist nicht zum Replizieren von Änderungen bereit. |
Wird ausgeführt | Der Replikationsjob wird gestartet und repliziert Änderungen. |
Wird beendet | Der Replikationsjob wird beendet. |
Beendet | Der Replikationsjob wurde beendet. |
Fehlgeschlagen | Der Replikationsjob ist aufgrund schwerwiegender Fehler fehlgeschlagen. |
Tabellenstatus
Konzept | Beschreibung |
---|---|
Snapshot wird erstellt | Der Replikationsjob erstellt vor dem Replizieren von Änderungen einen Snapshot des aktuellen Status der Tabelle. |
Replikation | Der Replikationsjob repliziert Änderungen aus der Quelltabelle in die Zieltabelle. |
Fehler | Der Replikationsjob kann Änderungen aus der Quelltabelle aufgrund eines Fehlers nicht replizieren. |
Messwerte
Konzept | Beschreibung |
---|---|
Einfügungen | Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden. |
Updates | Die Anzahl der Aktualisierungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden. |
Löschvorgänge | Die Anzahl der Insert-Anweisungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden. |
DDLs | Die Anzahl der DDL-Änderungen, die im ausgewählten Zeitraum auf das Ziel angewendet wurden. |
Durchsatz | Die Anzahl der Ereignisse und die Anzahl der Byte, die im ausgewählten Zeitraum am Ziel repliziert wurden. |
Latenz | Die Latenz, zu der Daten im ausgewählten Zeitraum am Ziel repliziert werden. |
Komponenten
Komponente | Beschreibung |
---|---|
Dienst | Überwacht die End-to-End-Orchestrierung von Replikationsjobs und bietet Funktionen zum Entwerfen, Bereitstellen, Verwalten und Überwachen von Replikationsjobs. Sie wird im Cloud Data Fusion-Mandantenprojekt ausgeführt (das Mandantenprojekt ist für den Nutzer ausgeblendet). Sein Status wird auf der Seite **Systemadministrator** der Cloud Data Fusion-Weboberfläche angezeigt. |
Zustandsverwaltung | Der Dienst verwaltet den Status jedes Replikationsjobs in einem Cloud Storage-Bucket im Kundenprojekt. Der Bucket kann beim Erstellen des Replikationsjobs konfiguriert werden. Es speichert die aktuellen Offsets und den Replikationsstatus jedes Replikationsjobs. |
Umsetzung | Dataproc-Cluster stellen die Ausführungsumgebung von Replikationsjobs bereit, die in Ihrem Projekt ausgeführt werden. Replikationsjobs werden mit CDAP-Workern ausgeführt. Die Größe und Eigenschaften der Ausführungsumgebung werden mit Compute Engine-Profilen konfiguriert. |
Quelldatenbank | Betriebsdatenbank für die Produktion, die in die Zieldatenbank repliziert wird Diese Datenbank kann sich lokal oder in Google Cloud befinden. Cloud Data Fusion Replication unterstützt MySQL-, Microsoft SQL Server- und Oracle-Quelldatenbanken. |
Lösung zur Änderungsverfolgung | Anstatt auf einem Agent ausgeführt zu werden, der auf der Quelldatenbank ausgeführt wird, benötigt Cloud Data Fusion eine Änderungsverfolgungslösung, um Änderungen in der Quelldatenbank zu lesen. Die Lösung kann eine Komponente der Quelldatenbank oder eine separat lizenzierte Drittanbieterlösung sein. Im letzteren Fall wird die Änderungsverfolgungslösung lokal, in der Quelldatenbank oder in Google Cloud ausgeführt. Jede Quelle muss einer Änderungsverfolgungslösung zugeordnet sein.
|
Zieldatenbank | Der Zielspeicherort für die Replikation und die Analyse. Cloud Data Fusion unterstützt die BigQuery-Zieldatenbank. |
Authentifizierung | Die Authentifizierungsmechanismen variieren je nach Quelldatenbank oder Änderungsverfolgungssoftware. Bei Verwendung der integrierten Funktionen von Quelldatenbanken wie SQL Server und MySQL werden Datenbankanmeldungen zur Authentifizierung verwendet. Wird Änderungsverfolgungssoftware verwendet, wird der Authentifizierungsmechanismus der Software verwendet. |
Verbindung
In der folgenden Tabelle werden die für die Replikation erforderlichen Netzwerkverbindungen und entsprechenden Sicherheitsmechanismen beschrieben.
Von | To | Optional | Protokoll | Netzwerk | Auth-Sicherheit | Zweck |
---|---|---|---|---|---|---|
Dienst (Mandantenprojekt) | Quelldatenbank | Ja | Hängt von der Replikationsquelle ab. JDBC für direkte Datenbankverbindung. | Peering + Firewallregeln + VPN/Interconnect + Router | DB-Anmeldung | Wird beim Entwurf, nicht bei der Ausführung benötigt, Zeitfunktionen: Tabellenauflistung, Bewertung (optionale Schritte; Replikation kann ohne sie fortgesetzt werden) |
Dienst (Mandantenprojekt) | Cloud Storage | Nein | Cloud API | VPC-SC | IAM | Zustandsverwaltung: Offsets, Replikationsstatus |
Dataproc (Ihr Projekt) | Quelldatenbank | Nein | Je nach Quelle. JDBC für direkte DB-Verbindung. | Peering + Firewallregeln + VPN/Interconnect + Router | DB-Anmeldung | Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank zu lesen und an das Ziel zu replizieren |
Dataproc (Ihr Projekt) | Cloud Storage | Nein | Cloud API | VPC-SC | IAM | Zustandsverwaltung: Offsets, Replikationsstatus |
Dataproc (Ihr Projekt) | BigQuery | Nein | Cloud API | VPC-SC | IAM | Wird zur Ausführungszeit benötigt, um Änderungen aus der Quelldatenbank auf das Ziel anzuwenden |
Nächste Schritte
- Replication API-Referenz
- Weitere Informationen finden Sie unter Datentypzuordnungen für Replikation.