Daten mithilfe von Datastream nahezu in Echtzeit an BigQuery replizieren

Hier erfahren Sie, wie Sie Daten aus einer Quelldatenbank mit Datastream in BigQuery-Datasets replizieren.


Klicken Sie auf Anleitung, um eine detaillierte Anleitung für diese Aufgabe direkt in der Google Cloud Console aufzurufen.

Anleitung


Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  6. Enable the Datastream API.

    Enable the API

  7. Achten Sie darauf, dass Ihrem Nutzerkonto die Rolle „Datastream-Administrator“ zugewiesen ist.

    Zur IAM-Seite

Wenn Sie eine Konfiguration für private Verbindungen für eine Standard- oder freigegebene VPC erstellen möchten müssen Sie zusätzliche Voraussetzungen erfüllen. Weitere Informationen finden Sie unter Konfiguration für private Verbindungen erstellen.

Voraussetzungen

Datastream bietet eine Vielzahl von Quelloptionen, Zieloptionen und Netzwerkverbindungsmethoden.

In dieser Kurzanleitung wird davon ausgegangen, dass Sie Daten aus einer Cloud SQL for PostgreSQL-Datenbank in BigQuery replizieren. Für die Quelldatenbank sollten Sie die Datenbankinstanz so konfigurieren können, dass Verbindungen von öffentlichen Datastream-IP-Adressen akzeptiert werden.

Da wir die Besonderheiten Ihrer Umgebung nicht kennen, können wir keine detaillierten Schritte in Bezug auf Ihre Netzwerkkonfiguration anbieten.

In dieser Kurzanleitung wählen Sie als Methode zur Netzwerkverbindung die Option Zulassungsliste für IP-Adressen aus. IP-Zulassungslisten sind eine Sicherheitsfunktion, mit der der Zugriff auf die Daten in Ihrer Quelldatenbank häufig auf vertrauenswürdige Nutzer beschränkt und gesteuert wird. Sie können IP-Zulassungslisten verwenden, um Listen mit vertrauenswürdigen IP-Adressen oder IP-Bereichen zu erstellen, von denen Ihre Nutzer und andere Cloud-Dienste wie Datastream auf diese Daten zugreifen können. Wenn Sie IP-Zulassungslisten verwenden möchten, müssen Sie die Cloud SQL-Quelldatenbank für eingehende Datastream-Verbindungen öffnen.

Verbindungsprofile erstellen

Durch das Erstellen von Verbindungsprofilen speichern Sie einige grundlegende Informationen zur Quelle und zum Ziel in Datastream. Diese Informationen lassen sich dann in mehreren Streams wiederverwenden.

Für diese Kurzanleitung wählen Sie PostgreSQL als Profiltyp für das Quellverbindungsprofil und BigQuery als Profiltyp für das Zielverbindungsprofil aus. Datastream verwendet die Informationen in den Verbindungsprofilen, um eine Verbindung zur Quelldatenbank und zu BigQuery herzustellen.

Quellverbindungsprofil für PostgreSQL-Datenbank erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf PROFIL ERSTELLEN.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp PostgreSQL, da Sie ein Quellverbindungsprofil für die PostgreSQL-Datenbank erstellen möchten.

  4. Geben Sie auf der Seite PostgreSQL-Profil erstellen im Abschnitt Verbindungseinstellungen definieren die folgenden Informationen an:

    • Geben Sie My Source Connection Profile als Verbindungsprofilname für Ihre Quelldatenbank ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.

    • Geben Sie Verbindungsdetails ein:

      • Geben Sie im Feld Hostname oder IP einen Hostnamen oder eine öffentliche IP-Adresse ein, über die Datastream eine Verbindung zur PostgreSQL-Quelldatenbank herstellen kann. Sie stellen eine öffentliche IP-Adresse bereit, da die IP-Zulassungsliste als Methode zur Netzwerkverbindung für diese Kurzanleitung verwendet wird.
      • Geben Sie in das Feld Port die Portnummer ein, die für die Quelldatenbank reserviert ist. Bei einer PostgreSQL-Datenbank ist der Standardport normalerweise 5432.
      • Geben Sie einen Nutzernamen und ein Passwort ein, um sich bei Ihrer Quelldatenbank zu authentifizieren.
      • Geben Sie im Feld Datenbank den Namen ein, der die Datenbankinstanz identifiziert. Bei PostgreSQL-Datenbanken ist dies in der Regel postgres.
  5. Klicken Sie im Abschnitt Verbindungseinstellungen definieren auf WEITER. Der Abschnitt Verbindungsmethode festlegen auf der Seite PostgreSQL-Profil erstellen ist aktiv.

  6. Wählen Sie die Netzwerkmethode aus, mit der Sie eine Verbindung zwischen der Quelldatenbank und Datastream herstellen möchten. Wählen Sie für diese Kurzanleitung im Drop-down-Menü Verbindungsmethode die Option IP-Zulassungsliste als Netzwerkmethode aus.

  7. Konfigurieren Sie die Quelldatenbank so, dass eingehende Verbindungen von den öffentlichen Datastream-IP-Adressen zugelassen werden.

  8. Klicken Sie im Abschnitt Verbindungsmethode festlegen auf WEITER. Auf der Seite PostgreSQL-Profil erstellen ist der Abschnitt Verbindungsprofil testen aktiv.

  9. Klicken Sie auf TEST AUSFÜHREN, um zu prüfen, ob die PostgreSQL-Quelldatenbank und Datastream miteinander kommunizieren können.

  10. Überprüfen Sie, ob der Status "Test bestanden" angezeigt wird.

  11. Wenn der Test fehlschlägt, können Sie das Problem an der entsprechenden Stelle des Ablaufs beheben und dann zum erneuten Test zurückkehren. Schritte zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren.

  12. Klicken Sie auf ERSTELLEN.

Ein Zielverbindungsprofil für BigQuery erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf PROFIL ERSTELLEN.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp BigQuery, da Sie ein Zielverbindungsprofil für BigQuery erstellen möchten.

  4. Geben Sie auf der Seite BigQuery-Profil erstellen die folgenden Informationen an:

    • Geben Sie My Destination Connection Profile als Verbindungsprofilname für Ihren Ziel-BigQuery-Dienst ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.
  5. Klicken Sie auf ERSTELLEN.

Nachdem Sie ein Quellverbindungsprofil für die PostgreSQL-Datenbank und ein Zielverbindungsprofil für BigQuery erstellt haben, können Sie damit einen Stream erstellen.

Stream erstellen

In diesem Abschnitt erstellen Sie einen Stream, um Daten aus einer PostgreSQL-Quelldatenbank in BigQuery zu replizieren.

Das Erstellen eines Streams umfasst:

Einstellungen für den Stream festlegen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf STREAM ERSTELLEN.

  3. Geben Sie auf der Seite Stream erstellen im Bereich Streamdetails definieren die folgenden Informationen an:

    • Geben Sie My Stream als Streamname ein.
    • Behalten Sie die automatisch generierte Stream-ID bei.
    • Wählen Sie im Menü Region die Region aus, in der Sie Ihr Quellverbindungsprofil erstellt haben.
    • Wählen Sie im Menü Quelltyp den Profiltyp PostgreSQL aus.
    • Wählen Sie im Menü Zieltyp den Profiltyp BigQuery aus.
  4. Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um widerzuspiegeln, wie Ihre Umgebung für einen Stream vorbereitet sein muss. Dazu gehört auch die Konfiguration der Quelldatenbank und von BigQuery.

  5. Klicken Sie auf WEITER. Auf der Seite Stream erstellen wird der Bereich PostgreSQL-Verbindungsprofil definieren angezeigt.

Informationen zum Quellverbindungsprofil angeben

  1. Wählen Sie im Menü Quellverbindungsprofil Ihr Quellverbindungsprofil für die PostgreSQL-Datenbank aus.

  2. Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und der Datenstrom miteinander kommunizieren können.

    Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Schritte zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.

  3. Klicken Sie auf WEITER. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zur Quelldatenbank für den Stream konfigurieren

  1. Geben Sie den Namen des Replikationsslots und der Publikation für die Quelldatenbank an. Der Replikationsslot und die Publikation wurden beim Konfigurieren der PostgreSQL-Datenbank erstellt.

  2. Verwenden Sie das Menü Aufzunehmende Objekte, um die Tabellen und Schemas in Ihrer Quelldatenbank anzugeben, die Datastream in BigQuery replizieren wird. Das Menü wird nur geladen, wenn Ihre Datenbank maximal 5.000 Objekte enthält.

    In dieser Kurzanleitung soll Datastream alle Tabellen und Schemas übertragen. Wählen Sie daher im Menü die Option Alle Tabellen aus allen Schemas aus.

  3. Klicken Sie auf WEITER. Der Bereich BigQuery-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.

Zielverbindungsprofil auswählen

  1. Wählen Sie im Menü Zielverbindungsprofil das Zielverbindungsprofil für BigQuery aus.

  2. Klicken Sie auf WEITER. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zum Ziel für den Stream konfigurieren

  1. Wählen Sie die Option Dataset für jedes Schema aus, damit Datastream automatisch in BigQuery für jedes Schema in der Quelldatenbank ein Dataset erstellt.

  2. Wählen Sie den Speicherort aus, an dem die Datasets in BigQuery erstellt werden. Dieser Standort muss nicht mit der Erstellungsregion des Datastream-Streams übereinstimmen.

  3. Legen Sie als Prefix quickstart- fest. Datastream fügt diesen String am Anfang jedes Datasets ein, das in BigQuery erstellt wird.

  4. Belassen Sie den Wert im Stream-Schreibmodus auf Merge. So bleiben die Tabellen in BigQuery mit der Quelle synchronisiert.

  5. Lassen Sie den Wert in der Drop-down-Liste Limit der Datenveralterung angeben auf 15 Minuten. Anhand dieses Werts entscheidet BigQuery, wie aktuell Ihre Daten bei der Abfrage sind.

  6. Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Stream erstellen

  1. Prüfen Sie Details zum Stream sowie die Quell- und Zielverbindungsprofile, die der Stream zur Übertragung von Daten von einer PostgreSQL-Quelldatenbank in BigQuery verwenden wird.

  2. Klicken Sie auf VALIDIERUNG AUSFÜHREN, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.

  3. Wenn alle Validierungsprüfungen erfolgreich waren, klicken Sie auf ERSTELLEN.

  4. Klicken Sie im Dialogfeld Stream erstellen? auf ERSTELLEN.

Stream starten

Im vorherigen Abschnitt der Kurzanleitung haben Sie einen Stream erstellt, aber nicht gestartet. Das können Sie jetzt tun.

In dieser Kurzanleitung erstellen und starten Sie einen Stream separat, für den Fall, dass der Stream-Erstellungsprozess eine erhöhte Belastung Ihrer Quelldatenbank verursacht. Um diesen Ladevorgang auszugleichen, erstellen Sie den Stream, ohne ihn zu starten. Dann starten Sie den Stream, wenn die Last erreicht werden kann.

Durch das Starten des Streams kann Datastream Daten, Schemas und Tabellen von der Quelldatenbank zum Ziel übertragen.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie das Kästchen links neben dem Stream an, den Sie starten möchten. In dieser Kurzanleitung ist dies Mein Stream.

  3. Klicken Sie auf START (Starten).

  4. Klicken Sie im Dialogfeld auf STARTEN. Der Status des Streams ändert sich von Not started in Starting in Running.

    Nachdem Sie einen Stream gestartet haben, können Sie überprüfen, ob Datastream Daten aus der Quelldatenbank zum Ziel übertragen hat.

Stream prüfen

In diesem Abschnitt bestätigen Sie, dass Datastream die Daten aus allen Tabellen Ihrer PostgreSQL-Quelldatenbank zu BigQuery überträgt.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf den Stream, den Sie erstellt haben. In dieser Kurzanleitung ist dies Mein Stream.

  3. Klicken Sie auf der Seite Stream-Details auf den Link, der unter dem Feld Zielschreibpfad angezeigt wird. BigQuery Studio wird in einem separaten Tab geöffnet.

  4. Prüfen Sie, ob Sie Datasets und Tabellen sehen, die Schemas und Tabellen Ihrer PostgreSQL-Quelldatenbank darstellen.

  5. Klicken Sie auf eine der Tabellen, um eine Vorschau Ihrer Daten zu sehen.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

  1. Verwenden Sie die Google Cloud Console, um Ihr Projekt, den Datastream-Stream und die Verbindungsprofile sowie die BigQuery-Datasets zu löschen.

Bereinigen Sie die Ressourcen, die Sie in Datastream erstellt haben, damit sie kein Kontingent verbrauchen und Ihnen in Zukunft nicht in Rechnung gestellt werden. In den folgenden Abschnitten wird erläutert, wie Sie diese Ressourcen löschen oder deaktivieren.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für diese Kurzanleitung erstellten Projekts.

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite "Ressourcen verwalten"

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.

  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Herunterfahren, um das Projekt zu löschen.

Stream löschen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf den Stream, den Sie löschen möchten. In dieser Kurzanleitung ist dies Mein Stream.

  3. Klicken Sie auf PAUSIEREN.

  4. Klicken Sie im Dialogfeld auf PAUSIEREN.

  5. Prüfen Sie im Bereich Streamstatus der Seite Stream-Details, ob der Status des Streams Paused ist.

  6. Klicken Sie auf Delete.

  7. Geben Sie im Dialogfeld Delete in das Textfeld ein und klicken Sie dann auf LÖSCHEN.

Verbindungsprofile löschen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf das Kästchen neben jedem Verbindungsprofil, das Sie löschen möchten. Klicken Sie für diese Kurzanleitung die Kästchen für My Source Connection Profile (Mein Quellverbindungsprofil) und My Destination Connection Profile (Mein Zielverbindungsprofil) an.

  3. Klicken Sie auf Delete.

  4. Klicken Sie im Dialogfeld auf LÖSCHEN.

BigQuery-Datasets löschen

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery Studio auf.

    Zu BigQuery Studio

  2. Maximieren Sie den Projektknoten, in dem Sie diese Kurzanleitung erstellt haben.

  3. Klicken Sie für jedes Dataset, das Sie löschen möchten, auf das Dreipunkt-Menü Aktionen ansehen und dann auf Löschen.

  4. Geben Sie im Dialogfeld delete in das Textfeld ein und klicken Sie dann auf LÖSCHEN.

Nächste Schritte