Daten von SQL Server in BigQuery replizieren

In dieser Anleitung erfahren Sie, wie Sie eine Pipeline erstellen und bereitstellen, die fortlaufend geänderte Daten aus einer Microsoft SQL Server-Datenbank in eine BigQuery-Tabelle repliziert.

Ziele

In dieser Anleitung lernen Sie, wie Sie:

  1. Richten Sie Ihre Microsoft SQL Server-Datenbank ein, um die Replikation zu aktivieren.
  2. Cloud Data Fusion-Replikationsjob erstellen und ausführen
  3. Sehen Sie sich die Ergebnisse in BigQuery an.

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:

Wenn die Replikation ausgeführt wird, fallen für den Dataproc-Cluster Gebühren an und für BigQuery fallen Verarbeitungskosten an. Zur Optimierung dieser Kosten empfehlen wir Ihnen dringend, die BigQuery-Pauschalpreise zu verwenden.

Sie können mithilfe des Preisrechners die Kosten für Ihre voraussichtliche Nutzung kalkulieren. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für Ihr Projekt aktiviert ist.

  4. Cloud Data Fusion, BigQuery, and Cloud Storage APIs aktivieren.

    Aktivieren Sie die APIs

  5. Erstellen Sie eine SQL Server-Instanz.
  6. Laden Sie die Datenbank von AdventureWorks2017 herunter und laden Sie die Daten in Ihre SQL Server-Instanz.
  7. Erstellen Sie eine private Cloud Data Fusion-Instanz in Version 6.3.0 oder höher. Beim Einrichten der Instanz:
    • Aktivieren Sie Virtual Private Cloud-Peering.
    • Klicken Sie zum Aktivieren der Replikation auf Beschleuniger hinzufügen und wählen Sie Replikation aus.
  8. Wenn Ihr SQL Server den Status Immer aktiv hat, finden Sie unter Fehlerbehebung weitere Schritte.

Wenn Sie eine vorhandene Instanz verwenden oder die Replikation im Cloud Data Fusion-Menü nicht sehen, lesen Sie Upgrade zum Aktivieren der Replikation.

Replikation in der SQL Server-Datenbank aktivieren

Aktivieren Sie die Änderungsdatenerfassung (Change Data Capture, CDC) in Ihrer SQL Server-Instanz.

Cloud Data Fusion-Replikationsjob erstellen und ausführen

JDBC-Treiber hochladen

  1. Laden Sie den SQL Server-JDBC-Treiber auf Ihren lokalen Computer herunter.

  2. Laden Sie in der Cloud Data Fusion-Benutzeroberfläche den JDBC-Treiber hoch. Verwenden Sie diese Werte zum Konfigurieren des JDBC-Treibers:

    • Geben Sie im Feld Name sqlserver ein.
    • Übernehmen Sie im Feld Version die Standardeinstellung.
    • Geben Sie im Feld Class Name den Wert com.microsoft.sqlserver.jdbc.SQLServerDriver ein.

Pipeline erstellen

  1. Klicken Sie in der Cloud Data Fusion-Benutzeroberfläche auf das Menü und gehen Sie zur Seite Replikation.

  2. Geben Sie auf der Seite Neuen Replikationsjob erstellen einen Namen für den Replikationsjob an.

  3. Klicken Sie auf Next (Weiter).

  4. Konfigurieren Sie die Quelle:

    1. Wählen Sie Microsoft SQL Server als Quelle aus.
    2. Geben Sie als Host den Hostnamen des SQL-Servers ein, aus dem gelesen werden soll.
    3. Geben Sie als Port den Port für die Verbindung zum SQL Server ein: 1433.
    4. Wählen Sie für Name des JDBC-Plug-ins die Option sqlserver oder den Namen aus, den Sie beim Konfigurieren des JDBC-Treibers angegeben haben.
    5. Geben Sie für Datenbankname AdventureWorks2017 ein.
    6. Geben Sie im Abschnitt Credentials Ihren Nutzernamen und Ihr Passwort ein, um auf den SQL Server zuzugreifen.
  5. Klicken Sie auf Next (Weiter).

  6. Wenn die Verbindung erfolgreich ist, wird eine Liste der AdventureWorks2017-Tabellen angezeigt. Wählen Sie für diese Anleitung alle zu replizierenden Tabellen und Ereignisse aus (einschließlich Einfügen, Aktualisieren und Löschen).

  7. Klicken Sie auf Next (Weiter).

  8. Konfigurieren Sie das Ziel:

    1. Wählen Sie das BigQuery-Ziel aus.
    2. Die Projekt-ID und der Dienstkontoschlüssel werden automatisch erkannt. Ändern Sie sie nicht.
    3. (Optional) Im Abschnitt Erweitert können Sie den Namen und den Speicherort des Staging-Buckets, das Ladeintervall, das Präfix der Staging-Tabelle und das Verhalten bei dem Löschen von Tabellen oder Datenbanken konfigurieren.
  9. Klicken Sie auf Next (Weiter).

  10. Optional: Konfigurieren Sie die erweiterten Eigenschaften. Übernehmen Sie für diese Anleitung die Standardeinstellungen.

  11. Klicken Sie auf Next (Weiter).

  12. Klicken Sie auf der Seite Bewertung prüfen bei einer der Tabellen auf Zuordnungen ansehen, um eine Bewertung der Schemaprobleme, fehlender Features oder der Verbindungsprobleme zu erhalten, die während der Replikation auftreten. Wenn Probleme auftreten, müssen diese behoben werden, bevor Sie fortfahren können. Falls es in einer dieser Tabellen Probleme gibt, kehren Sie zum Schritt zurück, in dem Sie Tabellen ausgewählt haben, und wählen Sie stattdessen eine Tabelle oder ein Ereignis aus (Insert, Update oder Delete), ohne dass Probleme auftreten.

  13. Klicken Sie auf Back (Zurück).

  14. Klicken Sie auf Next (Weiter).

  15. Prüfen Sie die Details des Replikationsjobs und klicken Sie dann auf Replikationsjob bereitstellen.

Pipeline starten

Gehen Sie auf der Seite Replikationsjobdetails so vor:

Klicken Sie auf Start.

Der Replikationsjob wechselt vom Status Bereitstellung in Wird gestartet in Wird ausgeführt. Im laufenden Zustand lädt der Replikationsjob einen ersten Snapshot der ausgewählten Tabellendaten (z. B. die Tabelle "Personen") in BigQuery. In diesem Status wird der Status der Personentabelle als Snapshot angezeigt. Nachdem der erste Snapshot in BigQuery geladen wurde, werden alle Änderungen, die an der Tabelle "Personen" vorgenommen werden, in BigQuery repliziert. Der Status der Tabelle wird als Replikat angezeigt.

Pipeline überwachen

Sie können den Replikationsjob starten und beenden, die Konfiguration und die Logs prüfen und den Replikationsjob überwachen.

Sie können die Aktivitäten des Replikationsjobs auf der Seite Replikationsjobdetails überwachen.

  1. Klicken Sie auf der Seite Replikation auf den gewünschten Namen für den Replikationsjob.

  2. Klicken Sie auf Monitoring.

Ergebnisse in BigQuery anzeigen

Der Replikationsjob erstellt ein repliziertes Dataset und eine replizierte Tabelle in BigQuery, wobei die Namen von der entsprechenden SQL Server-Datenbank und den Tabellennamen übernommen werden.

  1. Öffnen Sie in der Cloud Console BigQuery.

  2. Klicken Sie im linken Bereich auf den Namen Ihres Projekts, um die Liste der Datasets zu maximieren.

  3. Wählen Sie zuerst das Dataset adventureworks2017 und dann eine Tabelle aus, die Sie sich ansehen möchten.

Weitere Informationen finden Sie in der BigQuery-Dokumentation.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Nachdem Sie diese Anleitung abgeschlossen haben, bereinigen Sie die in Google Cloud erstellten Ressourcen, damit sie keine kostenpflichtigen Kontingente verbrauchen. In den folgenden Abschnitten erfahren Sie, wie Sie diese Ressourcen löschen oder deaktivieren.

VM-Instanz löschen

  1. Öffnen Sie in der Cloud Console die Seite VM-Instanzen.

    Zu „VM-Instanzen“

  2. Klicken Sie auf das Kästchen für die Die Instanz, die Sie löschen möchten.
  3. Klicken Sie zum Löschen der Instanz auf Weitere Aktionen, dann auf Löschen und folgen Sie der Anleitung.

Löschen Sie die Cloud Data Fusion-Instanz.

Folgen Sie der Anleitung zum Löschen Ihrer Cloud Data Fusion-Instanz.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für die Anleitung erstellten Projekts.

So löschen Sie das Projekt:

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte