Daten aus der Oracle-Datenbank in BigQuery replizieren

In dieser Anleitung wird beschrieben, wie Sie mit Cloud Data Fusion Replication einen Job bereitstellen, der kontinuierlich geänderte Daten aus einer Oracle-Datenbank in ein BigQuery-Dataset repliziert. Dieses Feature wird von Datastream zur Verfügung gestellt, dem cloudnativen Änderungsanbieter und Replikationsdienst von Google Cloud.

Ziele

In dieser Anleitung lernen Sie, wie Sie:

  1. Konfigurieren Sie die Oracle-Datenbank für das zusätzliche Logging.
  2. Cloud Data Fusion-Replikationsjob erstellen und ausführen
  3. Sehen Sie sich die Ergebnisse in BigQuery an.

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:

Wenn die Replikation ausgeführt wird, werden Ihnen der Dataproc-Cluster und Cloud Storage in Rechnung gestellt und es fallen Verarbeitungskosten für Datastream und BigQuery an. Zur Optimierung dieser Kosten empfehlen wir Ihnen dringend, die BigQuery-Pauschalpreise zu verwenden.

Sie können mithilfe des Preisrechners die Kosten für Ihre voraussichtliche Nutzung kalkulieren. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs aktivieren.

    Aktivieren Sie die APIs

  5. Erstellen Sie eine private Cloud Data Fusion-Instanz in Version 6.4.0 oder höher. Beim Einrichten der Instanz:
    • Aktivieren Sie Virtual Private Cloud-Peering.
    • Klicken Sie zum Aktivieren der Replikation auf Beschleuniger hinzufügen und wählen Sie Replikation aus.

Wenn Sie eine vorhandene Instanz verwenden oder die Replikation im Cloud Data Fusion-Menü nicht sehen, lesen Sie Upgrade zum Aktivieren der Replikation.

Oracle in Compute Engine installieren

In diesem Abschnitt (optional) erfahren Sie, wie Sie eine Beispieldatenbank einrichten. Wenn Sie bereits eine andere Datenbank an anderer Stelle eingerichtet haben, können Sie diesen Abschnitt überspringen. Beachten Sie, dass Datastream nur bestimmte Versionen der Oracle-Datenbank unterstützt.

  1. Laden Sie ein Oracle Server Docker-Image herunter. (Dieses Bild ist eine Express Edition von Oracle 11g. Es hat Funktionseinschränkungen. Weitere Informationen finden Sie unter Oracle-Datenbankversionen.

  2. Hochladen Ihres Docker-Images in Container Registry

  3. Docker-Image auf einer neuen VM-Instanz bereitstellen Ändern Sie beim Erstellen der VM die Laufwerkgröße auf 500 GB.

  4. Installieren Sie das HR-Beispielschema.

Oracle-Server konfigurieren, um ergänzendes Logging zu aktivieren

Führen Sie die Schritte zum Konfigurieren der Oracle-Quelldatenbank aus.

Berechtigungen für Dienstkonten erteilen

Gewähren Sie dem Cloud Data Fusion-Dienstkonto und dem Dataproc-Dienstkonto die Berechtigung zum Aufrufen der Datastream API und zum Zugriff auf Cloud Storage.

  1. Rufen Sie in der Cloud Console die Seite "IAM" auf.

    Zur IAM-Seite

  2. Suchen Sie in der Berechtigungstabelle in der Spalte Mitglieder das Cloud Data Fusion-Dienstkonto, das dem Format service-customer-project-number@gcp-sa-datafusion.iam.gserviceaccount.com entspricht.

  3. Klicken Sie rechts neben dem Dienstkonto auf Bearbeiten.

  4. Klicken Sie auf Weitere Rolle hinzufügen.

  5. Klicken Sie auf Rolle auswählen.

  6. Geben Sie in die Suchleiste Datenstream-Administrator ein.

    Configuration um.

  7. Klicken Sie auf Speichern.

  8. Prüfen Sie, ob in der Spalte Rolle der Tabelle "Berechtigungen" der Eintrag Datastream-Administrator angezeigt wird.

  9. Wiederholen Sie diesen Abschnitt, um dem Dataproc-Dienstkonto die Berechtigung zu erteilen:

    1. Rufen Sie in der Cloud Console die Seite "IAM" auf. Zur IAM-Seite

    2. Suchen Sie in der Berechtigungstabelle in der Spalte "Mitglieder" das Dataproc-VM-Dienstkonto, das dem Format <project-number>-compute@developer.gserviceaccount.com entspricht.

    3. Wiederholen Sie die Schritte 3 bis 8 oben.

Weitere Informationen zu Dienstkonten und Dienstkontoschlüsseln finden Sie unter Dienstkontoschlüssel erstellen und verwalten.

VPC-Netzwerk-Peering oder Firewallregel für den Oracle-Server erstellen

Wenn Ihre Oracle-Datenbank keinen eingehenden Traffic von öffentlichen IP-Adressen zulässt, müssen Sie VPC-Peering zwischen der Datastream-VPC und der VPC einrichten, auf die auf die Oracle-Datenbank zugegriffen werden kann. Weitere Informationen finden Sie unter Private Verbindungskonfiguration erstellen.

Wenn Ihre Oracle-Datenbank eingehenden Traffic von öffentlichen IP-Adressen zulässt, erstellen Sie eine Firewallregel für die VM-Instanz, um eingehenden Traffic von öffentlichen IP-Datenströmen zuzulassen. auf Ihrem Mobilgerät.

Cloud Data Fusion-Replikationsjob erstellen und ausführen

  1. Klicken Sie in der Cloud Data Fusion-Web-UI rechts oben auf Hub.

  2. Klicken Sie auf Oracle via Datastream Replication Plugin und dann auf Deploy.

  3. Klicken Sie im angezeigten Fenster Bereitstellen auf Fertigstellen.

Pipeline erstellen

  1. Klicken Sie in der Cloud Data Fusion-Benutzeroberfläche auf das Menü und gehen Sie zur Seite Replikation. Klicken Sie rechts oben auf den grünen Kreis.

  2. Geben Sie auf der Seite Neuen Replikationsjob erstellen einen Namen für den Replikationsjob an. Geben Sie optional eine Beschreibung ein.

  3. Klicken Sie auf "Weiter".

  4. Konfigurieren Sie die Quelle:

    1. Wählen Sie Oracle (by Datastream) als Quelle aus.

    2. Wenn Ihr Oracle-Server für Verbindungsmethode eingehenden Traffic von öffentlichen IP-Streams aus Datastream zulässt, wählen Sie IP-Zulassungsliste aus. Andernfalls wählen Sie unter Name der privaten Verbindung die Option Private Verbindung (VPC-Peering) aus und geben den Namen des VPC-Peerings ein, das Sie im Schritt VPC-Peering erstellen Firewallregel für Ihren Abschnitt mit dem Oracle-Server.

    3. Geben Sie für Host den Hostnamen des Oracle-Servers ein, aus dem gelesen werden soll.

    4. Geben Sie als Port den Port ein, über den eine Verbindung zum Oracle-Server hergestellt werden soll: 1521.

    5. Geben Sie als Systemidentität xe ein (den Beispieldatenbanknamen des Oracle-Servers).

    6. Geben Sie im Abschnitt "Anmeldedaten" Ihren Nutzernamen und Ihr Passwort für den Zugriff auf den Oracle-Server ein.

    7. Lassen Sie alle anderen Attribute unverändert.

  5. Klicken Sie auf Next (Weiter).

  6. Wenn die Verbindung erfolgreich hergestellt wurde, wird unter HR-Beispielschema eine Liste der Tabellen angezeigt. Wählen Sie für diese Anleitung alle zu replizierenden Tabellen und Ereignisse aus (einschließlich Einfügen, Aktualisieren und Löschen).

  7. Klicken Sie auf Next (Weiter).

  8. Konfigurieren Sie das Ziel:

    1. Wählen Sie das BigQuery-Ziel aus.

    2. Die Projekt-ID und der Dienstkontoschlüssel werden automatisch erkannt. Ändern Sie die Standardwerte nicht.

    3. (Optional) Im Abschnitt Erweitert können Sie den Namen und den Speicherort des Staging-Buckets, das Ladeintervall, das Präfix der Staging-Tabelle und das Verhalten bei dem Löschen von Tabellen oder Datenbanken konfigurieren.

  9. Klicken Sie auf Next (Weiter).

  10. Optional: Konfigurieren Sie die erweiterten Eigenschaften. Für diese Anleitung können Sie die Standardeinstellungen verwenden.

  11. Klicken Sie auf Next (Weiter).

  12. Klicken Sie auf der Seite "Bewertung prüfen" neben einer der Tabellen auf Zuordnungen ansehen, um Schemaprobleme, fehlende Funktionen oder Verbindungsprobleme zu bewerten, die möglicherweise dazu führen, während der Replikation auftreten. Wenn Probleme auftreten, müssen diese zuerst behoben werden, bevor Sie fortfahren können. Falls es in dieser Anleitung Probleme gibt, kehren Sie zum Schritt zurück, in dem Sie Tabellen ausgewählt haben, und wählen Sie stattdessen eine Tabelle oder ein Ereignis aus (Inserts, Updates oder Deletes), ohne dass Probleme auftreten.

  13. Klicken Sie auf Back (Zurück).

  14. Klicken Sie auf Next (Weiter).

  15. Prüfen Sie die Details des Replikationsjobs und klicken Sie dann auf Replikationsjob bereitstellen.

Job starten

Gehen Sie auf der Seite Replikationsjobdetails so vor:

Klicken Sie auf Start.

Der Replikationsjob wechselt vom Status Bereitstellung in Wird gestartet in Wird ausgeführt. Im laufenden Zustand lädt der Replikationsjob einen ersten Snapshot der ausgewählten Tabellendaten in BigQuery. In diesem Status wird der Status der Tabelle als Snapshot aufgeführt. Nachdem der erste Snapshot in BigQuery geladen wurde, werden alle an der Tabelle vorgenommenen Änderungen in BigQuery repliziert und der Status der Tabelle wird als Replikat angezeigt.

Job überwachen

Sie können den Replikationsjob starten und beenden, die Konfiguration und die Logs prüfen und den Replikationsjob überwachen.

Sie können die Aktivitäten des Replikationsjobs auf der Seite Replikationsjobdetails überwachen.

  1. Klicken Sie auf der Seite Replikation auf den gewünschten Namen für den Replikationsjob.

  2. Klicken Sie auf Monitoring.

Ergebnisse in BigQuery anzeigen

Der Replikationsjob erstellt ein repliziertes Dataset und eine replizierte Tabelle in BigQuery, wobei die Namen von der entsprechenden Oracle-Datenbank und den Tabellennamen übernommen werden.

  1. Öffnen Sie in der Cloud Console BigQuery.

  2. Klicken Sie im linken Bereich auf den Namen Ihres Projekts, um die Liste der Datasets zu maximieren.

  3. Wählen Sie zuerst das Dataset xe und dann eine Tabelle aus, die Sie sich ansehen möchten.

Weitere Informationen finden Sie in der BigQuery-Dokumentation.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Nachdem Sie diese Anleitung abgeschlossen haben, bereinigen Sie die in Google Cloud erstellten Ressourcen, damit sie keine kostenpflichtigen Kontingente verbrauchen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

VM-Instanz löschen

  1. Öffnen Sie in der Cloud Console die Seite "VM-Instanzen".

    Zu „VM-Instanzen“

  2. Klicken Sie das Kästchen für die Instanz an, die Sie löschen möchten.

  3. Klicken Sie zum Löschen der Instanz auf "Löschen".

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen Ihrer Cloud Data Fusion-Instanz.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte