In dieser Anleitung erfahren Sie, wie Sie einen Job bereitstellen, der geänderte Daten mithilfe von Cloud Data Fusion-Replikation kontinuierlich aus einer Oracle-Datenbank in ein BigQuery-Dataset repliziert. Dieses Feature basiert auf Datastream, dem cloudnativen Änderungsanbieter und dem Replikationsdienst von Google Cloud.
Lernziele
In dieser Anleitung lernen Sie, wie Sie:
- Konfigurieren Sie die Oracle-Datenbank, um das zusätzliche Logging zu aktivieren.
- Einen Cloud Data Fusion-Replikationsjob und erstellen und ausführen
- Ergebnisse in BigQuery anzeigen
Kosten
In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:
Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.
Bei der Ausführung der Replikation werden Ihnen der Dataproc-Cluster und Cloud Storage sowie die Verarbeitungskosten für Datastream und BigQuery in Rechnung gestellt. Zur Optimierung dieser Kosten empfehlen wir dringend, BigQuery-Pauschalpreise zu verwenden.
Hinweis
- Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist
-
Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs aktivieren.
-
Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist
-
Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs aktivieren.
- Erstellen Sie eine private Cloud Data Fusion-Instanz in Version 6.4.0 oder höher. Führen Sie beim Einrichten der Instanz die folgenden Schritte aus:
- Aktivieren Sie Virtual Private Cloud Peering.
- Aktivieren Sie die Replikation: Klicken Sie auf Beschleuniger hinzufügen und wählen Sie Replikation aus.
Wenn Sie eine vorhandene Instanz verwenden oder im Cloud Data Fusion-menu Menü die Option Replikation nicht sehen, lesen Sie Upgrade durchführen, um die Replikation zu aktivieren.
Optional: Oracle in Compute Engine installieren
In diesem Abschnitt wird beschrieben, wie Sie eine Beispieldatenbank einrichten. Wenn Sie bereits eine Oracle-Datenbank installiert haben, können Sie diese verwenden und diesen Abschnitt überspringen.
Laden Sie ein Oracle Server-Docker-Image herunter. (Dieses Image ist eine Express-Version von Oracle 11g. Sie hat Einschränkungen bei den Funktionen. Weitere Informationen finden Sie unter Oracle-Datenbankversionen.
Docker-Image in Container Registry hochladen.
Stellen Sie Ihr Docker-Image auf einer neuen VM-Instanz bereit. Ändern Sie beim Erstellen der VM die Laufwerkgröße in 500 GB.
HR-Beispielschema installieren.
Oracle-Server konfigurieren, um das zusätzliche Logging zu aktivieren
Führen Sie die Schritte zum Konfigurieren Ihrer Oracle-Quelldatenbank aus.
Berechtigungen für Dienstkonten erteilen
Gewähren Sie dem Cloud Data Fusion-Dienstkonto und dem Dataproc-Dienstkonto die Berechtigung zum Aufrufen der Datastream API und zum Zugreifen auf Cloud Storage.
Öffnen Sie in der Google Cloud Console die Seite "IAM".
Suchen Sie in der Berechtigungstabelle in der Spalte Hauptkonten das Cloud Data Fusion-Dienstkonto, das dem Format
service-customer-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
entspricht.Klicken Sie rechts neben dem Dienstkonto auf Bearbeiten.
Klicken Sie auf Weitere Rolle hinzufügen.
Klicken Sie auf Rolle auswählen.
Wählen Sie in der Suchleiste DataStream-Administrator aus.
Klicken Sie auf Speichern.
Prüfen Sie, ob DataStream-Administrator in der Spalte Rolle der Tabelle mit den Berechtigungen angezeigt wird.
Wiederholen Sie diesen Abschnitt, um Berechtigung für das dem Dataproc-Dienstkonto zu erteilen:
Öffnen Sie in der Google Cloud Console die Seite "IAM".
Suchen Sie in der Berechtigungstabelle in der Spalte "Hauptkonten" das Dataproc-VM-Dienstkonto, das dem Format
<project-number>-compute@developer.gserviceaccount.com
entspricht.Wiederholen Sie die Schritte 3 bis 8 in diesem Abschnitt.
Weitere Informationen zu Dienstkonten und Dienstkontoschlüsseln finden Sie unter Dienstkontoschlüssel erstellen und verwalten.
VPC-Netzwerk-Peering- oder Firewallregel für Ihren Oracle-Server erstellen
Wenn Ihre Oracle-Datenbank keinen eingehenden Traffic von öffentlichen IP-Adressen zulässt, müssen Sie VPC-Peering zwischen der Datastream-VPC und der VPC einrichten, auf die Ihre Oracle-Datenbank zugreifen kann. Weitere Informationen finden Sie unter Konfiguration einer privaten Verbindung erstellen.
Wenn die Oracle-Datenbank eingehenden Traffic von öffentlichen IP-Adressen zulässt, erstellen Sie eine Firewallregel für die VM-Instanz, um eingehenden Traffic von öffentlichen Datastream-IPs zuzulassen.
Cloud Data Fusion-Replikationsjob erstellen und ausführen
Auftrag erstellen
Klicken Sie in der Weboberfläche von Cloud Data Fusion auf das Menü und rufen Sie die Seite Replikation auf. Klicken Sie rechts oben auf den grünen Kreis.
Geben Sie auf der Seite Neuen Replikationsjob erstellen einen Namen für den Replikationsjob an. Geben Sie optional eine Beschreibung an.
Klicken Sie auf "Weiter".
Konfigurieren Sie die Quelle:
Wählen Sie Oracle (von Datastream) als Quelle aus.
Wenn der Oracle-Server eingehenden Traffic von öffentlichen Datastream-IP-Adressen zulässt, wählen Sie unter Verbindungsmethode die Option IP-Zulassungsliste aus. Wählen Sie andernfalls unter Name der privaten Verbindung die Option Private Verbindung (VPC-Peering) aus und geben Sie den Namen für das VPC-Peering ein, das Sie im Abschnitt VPC-Peering oder Firewallregel für Ihren Oracle-Server erstellen erstellt haben.
Geben Sie unter Host den Hostnamen des Oracle-Servers ein, aus dem gelesen werden soll.
Geben Sie unter Port den Port ein, der zum Herstellen einer Verbindung zum Oracle Server verwendet werden soll: 1521.
Geben Sie unter Systemidentität
xe
ein (der Beispieldatenbankname des Oracle-Servers).Geben Sie im Abschnitt "Anmeldedaten" Ihren Nutzernamen und Ihr Passwort für den Zugriff auf den Oracle Server ein.
Lassen Sie alle anderen Attribute unverändert.
Klicken Sie auf Next (Weiter).
Wenn die Verbindung hergestellt wurde, wird unter dem Beispielschema für die Personalabteilung eine Liste der Tabellen angezeigt. Wählen Sie für diese Anleitung alle zu replizierenden Tabellen und Ereignisse aus, einschließlich der Ereignisse „Einfügen“, „Aktualisieren“ und „Löschen“.
Klicken Sie auf Next (Weiter).
Konfigurieren Sie das Ziel:
Wählen Sie das BigQuery-Ziel aus.
Die Projekt-ID und der Dienstkontoschlüssel werden automatisch erkannt. Übernehmen Sie die Standardwerte unverändert.
Optional: Im Abschnitt Erweitert können Sie Folgendes konfigurieren:
- Name und Speicherort des Staging-Buckets
- Ladeintervall
- Präfix der Staging-Tabelle
- Verhalten beim Löschen von Tabellen oder Datenbanken
Klicken Sie auf Next (Weiter).
Optional: Konfigurieren Sie die erweiterten Properties. Für diese Anleitung können Sie die Standardeinstellungen verwenden.
Klicken Sie auf Next (Weiter).
Klicken Sie auf der Seite "Bewertung prüfen" für eine der Tabellen auf Zuordnungen anzeigen, um eine Bewertung der Schemaprobleme, der fehlenden Features oder der Verbindungsprobleme zu erhalten, die während der Replikation auftreten können.
Sollten Probleme auftreten, müssen Sie diese beheben, bevor Sie fortfahren. Wenn in dieser Anleitung Probleme auftreten, gehen Sie so vor:
- Kehren Sie zu dem Schritt zurück, bei dem Sie die Tabellen ausgewählt haben.
- Wählen Sie eine Tabelle oder ein Ereignis (Beilagen, Aktualisierungen oder Löschungen) aus.
Weitere Informationen zu Datentypen, die von der Quelldatenbank zum BigQuery-Ziel konvertiert wurden, finden Sie unter Datentypen der Replikation.
Klicken Sie auf Back (Zurück).
Klicken Sie auf Next (Weiter).
Prüfen Sie die Details des Replikationsjobs und klicken Sie dann auf Replikationsjob bereitstellen.
Job starten
Auf der Seite Replikationsjobdetails:
Klicken Sie auf Start.
Der Replikationsjob wechselt vom Status Wird bereitgestellt zu Wird gestartet zu Wird ausgeführt. Im Status "Wird ausgeführt" lädt der Replikationsjob einen ersten Snapshot der ausgewählten Tabellendaten in BigQuery. In diesem Status wird der Status der Tabelle als Snapshots werden erstellt aufgeführt. Nachdem der erste Snapshot in BigQuery geladen wurde, werden alle an der Tabelle vorgenommenen Änderungen nach BigQuery repliziert und der Status der Tabelle als Wird repliziert aufgeführt.
Job überwachen
Sie können den Replikationsjob starten und beenden, seine Konfiguration und Logs prüfen und den Replikationsjob überwachen.
Sie können die Aktivitäten des Replikationsjobs auf der Seite Replikationsjobdetails überwachen.
Klicken Sie auf der Seite Replikation auf den gewünschten Namen des Replikationsjobs.
Klicken Sie auf Monitoring.
Ergebnisse in BigQuery anzeigen
Der Replikationsjob erstellt ein repliziertes Dataset und eine replizierte Tabelle in BigQuery, wobei die Namen aus der entsprechenden Oracle-Datenbank und den Tabellennamen übernommen werden.
Öffnen Sie BigQuery in der Google Cloud Console.
Klicken Sie im linken Bereich auf Ihren Projektnamen, um eine Liste von Datasets zu maximieren.
Wählen Sie zuerst das Dataset
xe
und dann eine Tabelle aus.
Weitere Informationen finden Sie in der BigQuery-Dokumentation.
Bereinigen
Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.
Nachdem Sie diese Anleitung abgeschlossen haben, bereinigen Sie die in Google Cloud erstellten Ressourcen, damit sie keine kostenpflichtigen Kontingente verbrauchen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.
VM-Instanz löschen
Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.
Klicken Sie auf das Kästchen neben der Instanz, das gelöscht werden soll.
Zum Löschen der Instanz klicken Sie dann auf "Löschen".
Löschen Sie die Cloud Data Fusion-Instanz.
Folgen Sie der Anleitung zum Löschen Ihrer Cloud Data Fusion-Instanz.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.
So löschen Sie das Projekt:
- Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
- Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.
Nächste Schritte
- Weitere Informationen zu Datastream
- Weitere Informationen zur Replikation in Cloud Data Fusion
- Replication API-Referenz
- Weitere Informationen finden Sie in der Oracle-Replikationsreferenz.
- Anleitung zum Replizieren von Daten aus MySQL in BigQuery
- Anleitung zum Replizieren von Daten aus SQL Server in BigQuery