Daten aus der Oracle-Datenbank in BigQuery replizieren


In dieser Anleitung erfahren Sie, wie Sie einen Job bereitstellen, der geänderte Daten mithilfe von Cloud Data Fusion-Replikation kontinuierlich aus einer Oracle-Datenbank in ein BigQuery-Dataset repliziert. Dieses Feature wird von Datastream unterstützt.

Lernziele

In dieser Anleitung lernen Sie, wie Sie:

  1. Konfigurieren Sie die Oracle-Datenbank, um das zusätzliche Logging zu aktivieren.
  2. Cloud Data Fusion-Replikationsjob erstellen und ausführen.
  3. Ergebnisse in BigQuery anzeigen

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Bei der Replikation werden Ihnen der Dataproc-Cluster und Cloud Storage in Rechnung gestellt sowie Verarbeitungskosten für Datastream und BigQuery. Zur Optimierung dieser Kosten empfehlen wir dringend die Verwendung der BigQuery-Pauschalpreise.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs aktivieren.

    Aktivieren Sie die APIs

  5. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  6. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  7. Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs aktivieren.

    Aktivieren Sie die APIs

  8. Erstellen Sie eine öffentliche Cloud Data Fusion-Instanz in Version 6.3.0 oder höher. Wenn Sie eine private Instanz erstellen, richten Sie VPC-Netzwerk-Peering ein.
    • Aktivieren Sie beim Erstellen der Instanz die Replikation. Klicken Sie dazu auf Beschleuniger hinzufügen und dann auf das Kästchen Replikation.
    • Informationen zum Aktivieren in einer vorhandenen Instanz finden Sie unter Replikation aktivieren.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Herstellen einer Verbindung zu einer Oracle-Datenbank benötigen:

  • Dataproc-Worker (roles/dataproc.worker) im Dataproc-Dienstkonto in dem Projekt, das den Cluster enthält
  • Cloud Data Fusion-Runner für das Dataproc-Dienstkonto in dem Projekt, das den Cluster enthält
  • DataStream Admin (roles/datastream.admin) für das Cloud Data Fusion- und das Dataproc-Dienstkonto

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Möglicherweise können Sie die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Optional: Oracle in Compute Engine installieren

In diesem Abschnitt wird gezeigt, wie Sie eine Beispieldatenbank einrichten. Wenn Sie bereits eine Oracle-Datenbank installiert haben, können Sie diesen Abschnitt überspringen.

  1. Laden Sie ein Oracle Server-Docker-Image herunter.

    Einschränkungen dieses Oracle Express Edition 11g-Image finden Sie unter Oracle Database Editions.

  2. Stellen Sie Ihr Docker-Image auf einer neuen VM-Instanz bereit.

  3. Ändern Sie auf der Compute Engine-Seite Laufwerke die Laufwerksgröße in 500 GB und starten Sie die VM neu.

    Zur Seite „Laufwerke“

  4. HR-Beispielschema installieren.

VPC-Netzwerk-Peering- oder Firewallregel für Ihren Oracle-Server erstellen

Wenn Ihre Oracle-Datenbank keinen eingehenden Traffic von öffentlichen IP-Adressen zulässt, richten Sie VPC-Netzwerk-Peering zwischen der Datastream-VPC und der VPC ein, in der auf Ihre Oracle-Datenbank zugegriffen werden kann. Weitere Informationen finden Sie unter Konfiguration für private Verbindungen erstellen.

Wenn Ihre Oracle-Datenbank eingehenden Traffic von öffentlichen IP-Adressen zulässt, erstellen Sie eine Firewallregel für die VM-Instanz, um eingehenden Traffic von öffentlichen Datastream-IP-Adressen zuzulassen.

Oracle-Server konfigurieren, um das zusätzliche Logging zu aktivieren

Führen Sie die Schritte zum Konfigurieren Ihrer Oracle-Quelldatenbank aus.

Cloud Data Fusion-Replikationsjob erstellen und ausführen

Auftrag erstellen

  1. Klicken Sie in der Weboberfläche von Cloud Data Fusion auf Replikation.

  2. Klicken Sie auf Replikationsjob erstellen.

  3. Geben Sie auf der Seite Neuen Replikationsjob erstellen den Namen eines Replikationsjobs an und klicken Sie auf Weiter.

  4. Konfigurieren Sie die Quelle:

    1. Wählen Sie Oracle (von Datastream) als Quelle aus.

    2. Wenn der Oracle-Server eingehenden Traffic von öffentlichen Datastream-IP-Adressen zulässt, wählen Sie unter Verbindungsmethode die Option IP-Zulassungsliste aus. Andernfalls wählen Sie unter Name der privaten Verbindung die Option Private Verbindung (VPC-Peering) aus und geben Sie den Namen ein, den Sie im Abschnitt VPC-Netzwerk-Peering oder Firewallregel für Oracle Server erstellen erstellt haben.

    3. Geben Sie unter Host den Hostnamen des Oracle-Servers ein, der gelesen werden soll.

    4. Geben Sie unter Port den Port ein, mit dem eine Verbindung zum Oracle-Server hergestellt werden soll: 1521.

    5. Geben Sie unter Systemidentität xe ein (der Beispieldatenbankname des Oracle-Servers).

    6. Geben Sie im Abschnitt "Anmeldedaten" Ihren Nutzernamen und Ihr Passwort für den Zugriff auf den Oracle Server ein.

    7. Lassen Sie alle anderen Attribute unverändert.

  5. Klicken Sie auf Next (Weiter).

  6. Konfigurieren Sie das Ziel:

    1. Wählen Sie das BigQuery-Ziel aus.

    2. Die Projekt-ID und der Dienstkontoschlüssel werden automatisch erkannt. Übernehmen Sie die Standardwerte unverändert.

    3. Optional: Im Bereich Erweitert können Sie Folgendes konfigurieren:

      • Name und Speicherort des Staging-Buckets
      • Ladeintervall
      • Präfix der Staging-Tabelle
      • Verhalten beim Löschen von Tabellen oder Datenbanken
  7. Klicken Sie auf Next (Weiter).

  8. Wenn die Verbindung erfolgreich hergestellt wurde, wird eine Liste mit Tabellen angezeigt. Wählen Sie für diese Anleitung einige Tabellen aus.

  9. Klicken Sie auf Next (Weiter).

  10. Klicken Sie auf der Seite "Bewertung prüfen" für eine der Tabellen auf Zuordnungen anzeigen, um eine Bewertung der Schemaprobleme, der fehlenden Features oder der Verbindungsprobleme zu erhalten, die während der Replikation auftreten können.

    Sollten Probleme auftreten, müssen Sie sie beheben, bevor Sie fortfahren. Wenn im Rahmen dieser Anleitung Probleme mit den Tabellen auftreten, gehen Sie so vor:

    1. Kehren Sie zu dem Schritt zurück, in dem Sie Tabellen ausgewählt haben.
    2. Wählen Sie eine Tabelle oder ein Ereignis („Einfügungen“, „Aktualisierungen“ oder „Löschungen“) aus, ohne dass Probleme auftreten.

    Weitere Informationen zu Datentypkonvertierungen von der Quelldatenbank in das BigQuery-Ziel finden Sie unter Datentypen der Replikation.

  11. Klicken Sie auf Back (Zurück).

  12. Klicken Sie auf Next (Weiter).

  13. Prüfen Sie die Übersichtsdetails des Replikationsjobs und klicken Sie dann auf Replikationsjob bereitstellen.

Job starten

  1. Rufen Sie in der Cloud Data Fusion-Weboberfläche die Seite Details zum Replikationsjob auf.

  2. Klicken Sie auf Start.

Der Replikationsjob wechselt vom Status Wird bereitgestellt in den Status Wird gestartet in den Status Wird ausgeführt. Im Status „Wird ausgeführt“ lädt der Replikationsjob einen ersten Snapshot der von Ihnen ausgewählten Tabellendaten in BigQuery. In diesem Status wird der Status der Tabelle als Snapshots werden erstellt aufgeführt. Nachdem der erste Snapshot in BigQuery geladen wurde, werden alle an der Tabelle vorgenommenen Änderungen nach BigQuery repliziert und der Status der Tabelle als Wird repliziert aufgeführt.

Job überwachen

Sie können den Replikationsjob starten und beenden, seine Konfiguration und Logs überprüfen sowie den Replikationsjob überwachen.

Sie können die Aktivitäten der Replikationsjobs auf der Seite mit den Details zum Replikationsjob überwachen.

  1. Klicken Sie auf der Seite Replikation auf den Namen des gewünschten Replikationsjobs.

  2. Klicken Sie auf Monitoring.

Ergebnisse in BigQuery anzeigen

Der Replikationsjob erstellt ein repliziertes Dataset und eine replizierte Tabelle in BigQuery, wobei die Namen aus der entsprechenden Oracle-Datenbank und -Tabellennamen übernommen werden.

  1. Öffnen Sie in der Google Cloud Console die Seite BigQuery.

  2. Klicken Sie im linken Bereich auf den Projektnamen, um eine Liste der Datasets zu maximieren.

  3. Wählen Sie zuerst das Dataset xe und dann eine Tabelle aus.

Weitere Informationen finden Sie in der BigQuery-Dokumentation.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Nachdem Sie diese Anleitung abgeschlossen haben, bereinigen Sie die in Google Cloud erstellten Ressourcen, damit sie keine kostenpflichtigen Kontingente verbrauchen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

VM-Instanz löschen

  1. Rufen Sie in der Google Cloud Console die Seite VM-Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf das Kästchen neben der Instanz, das gelöscht werden soll.

  3. Zum Löschen der Instanz klicken Sie dann auf Löschen.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen einer Cloud Data Fusion-Instanz.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte