Daten mithilfe von Datastream nahezu in Echtzeit an BigQuery replizieren

Hier erfahren Sie, wie Sie Daten aus einer Quelldatenbank mit Datastream in BigQuery-Datasets replizieren.


Klicken Sie auf Anleitung, um die Schritt-für-Schritt-Anleitung für diese Aufgabe direkt in der Google Cloud Console auszuführen:

Anleitung


Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  6. Datastream API aktivieren.

    Aktivieren Sie die API

  7. Achten Sie darauf, dass Ihrem Nutzerkonto die Rolle „Datastream-Administrator“ zugewiesen ist.

    Zur IAM-Seite

Wenn Sie eine Konfiguration für private Verbindungen für ein Standard- oder freigegebenes VPC-Netzwerk erstellen möchten, müssen Sie zusätzliche Voraussetzungen erfüllen. Weitere Informationen finden Sie unter Konfiguration für private Verbindungen erstellen.

Voraussetzungen

Datastream bietet eine Vielzahl von Quelloptionen, Zieloptionen und Netzwerkverbindungsmethoden.

In dieser Kurzanleitung gehen wir davon aus, dass Sie Daten aus einer Cloud SQL for PostgreSQL-Datenbank in BigQuery replizieren. Für die Quelldatenbank sollten Sie die Datenbankinstanz so konfigurieren können, dass Verbindungen von öffentlichen Datastream-IP-Adressen akzeptiert werden.

Da wir die Besonderheiten Ihrer Umgebung nicht kennen, können wir keine detaillierten Schritte in Bezug auf Ihre Netzwerkkonfiguration anbieten.

In dieser Kurzanleitung wählen Sie IP-Zulassungsliste als Netzwerkverbindungsmethode aus. IP-Zulassungslisten sind eine Sicherheitsfunktion, mit der der Zugriff auf die Daten in Ihrer Quelldatenbank häufig auf vertrauenswürdige Nutzer beschränkt und gesteuert wird. Sie können IP-Zulassungslisten verwenden, um Listen mit vertrauenswürdigen IP-Adressen oder IP-Bereichen zu erstellen, von denen Ihre Nutzer und andere Cloud-Dienste wie Datastream auf diese Daten zugreifen können. Wenn Sie IP-Zulassungslisten verwenden möchten, müssen Sie die Cloud SQL-Quelldatenbank für eingehende Verbindungen von Datastream öffnen.

Verbindungsprofile erstellen

Wenn Sie Verbindungsprofile erstellen, speichern Sie einige grundlegende Informationen über die Quelle und das Ziel in Datastream. Diese Informationen lassen sich dann in mehreren Streams wiederverwenden.

In dieser Kurzanleitung wählen Sie PostgreSQL als Profiltyp für das Quellverbindungsprofil und BigQuery als Profiltyp für das Zielverbindungsprofil aus. Datastream verwendet die Informationen in den Verbindungsprofilen, um eine Verbindung zur Quelldatenbank und BigQuery herzustellen.

Quellverbindungsprofil für eine PostgreSQL-Datenbank erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf PROFIL ERSTELLEN.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp PostgreSQL, da Sie ein Quellverbindungsprofil für die PostgreSQL-Datenbank erstellen möchten.

  4. Geben Sie auf der Seite PostgreSQL-Profil erstellen im Abschnitt Verbindungseinstellungen definieren die folgenden Informationen an:

    • Geben Sie My Source Connection Profile als Verbindungsprofilname für Ihre Quelldatenbank ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.

    • Geben Sie Verbindungsdetails ein:

      • Geben Sie im Feld Hostname oder IP einen Hostnamen oder eine öffentliche IP-Adresse ein, über die Datastream eine Verbindung zur PostgreSQL-Quelldatenbank herstellen kann. Sie stellen eine öffentliche IP-Adresse bereit, da die IP-Zulassungsliste als Methode zur Netzwerkverbindung für diese Kurzanleitung verwendet wird.
      • Geben Sie in das Feld Port die Portnummer ein, die für die Quelldatenbank reserviert ist. Für eine PostgreSQL-Datenbank ist der Standardport normalerweise 5432.
      • Geben Sie einen Nutzernamen und ein Passwort ein, um sich bei Ihrer Quelldatenbank zu authentifizieren.
      • Geben Sie im Feld Datenbank den Namen der Datenbankinstanz ein. Bei PostgreSQL-Datenbanken ist dies normalerweise postgres.
  5. Klicken Sie im Abschnitt Verbindungseinstellungen definieren auf WEITER. Der Bereich Verbindungsmethode definieren auf der Seite PostgreSQL-Profil erstellen ist aktiv.

  6. Wählen Sie die Netzwerkmethode aus, mit der Sie eine Verbindung zwischen der Quelldatenbank und Datastream herstellen möchten. Wählen Sie für diese Kurzanleitung im Drop-down-Menü Verbindungsmethode die Option IP-Zulassungsliste als Netzwerkmethode aus.

  7. Konfigurieren Sie die Quelldatenbank so, dass eingehende Verbindungen von den öffentlichen Datastream-IP-Adressen zugelassen werden.

  8. Klicken Sie im Abschnitt Verbindungsmethode festlegen auf WEITER. Der Abschnitt Verbindungsprofil testen auf der Seite PostgreSQL-Profil erstellen ist aktiv.

  9. Klicken Sie auf TEST AUSFÜHREN, um zu prüfen, ob die PostgreSQL-Quelldatenbank und Datastream miteinander kommunizieren können.

  10. Überprüfen Sie, ob der Status "Test bestanden" angezeigt wird.

  11. Wenn der Test fehlschlägt, können Sie das Problem an der entsprechenden Stelle des Ablaufs beheben und dann zum erneuten Test zurückkehren. Weitere Informationen zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren.

  12. Klicken Sie auf ERSTELLEN.

Ein Zielverbindungsprofil für BigQuery erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf PROFIL ERSTELLEN.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp BigQuery, da Sie ein Zielverbindungsprofil für BigQuery erstellen möchten.

  4. Geben Sie auf der Seite BigQuery-Profil erstellen die folgenden Informationen an:

    • Geben Sie My Destination Connection Profile als Name des Verbindungsprofils für Ihren BigQuery-Zieldienst ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.
  5. Klicken Sie auf ERSTELLEN.

Nachdem Sie ein Quellverbindungsprofil für die PostgreSQL-Datenbank und ein Zielverbindungsprofil für BigQuery erstellt haben, können Sie damit einen Stream erstellen.

Stream erstellen

In diesem Abschnitt erstellen Sie einen Stream, um Daten aus einer PostgreSQL-Quelldatenbank in BigQuery zu replizieren.

Das Erstellen eines Streams umfasst:

Einstellungen für den Stream festlegen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf STREAM ERSTELLEN.

  3. Geben Sie auf der Seite Stream erstellen im Bereich Streamdetails definieren die folgenden Informationen an:

    • Geben Sie My Stream als Streamname ein.
    • Behalten Sie die automatisch generierte Stream-ID bei.
    • Wählen Sie im Menü Region die Region aus, in der Sie Ihr Quellverbindungsprofil erstellt haben.
    • Wählen Sie im Menü Quelltyp den Profiltyp PostgreSQL aus.
    • Wählen Sie im Menü Zieltyp den Profiltyp BigQuery aus.
  4. Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um widerzuspiegeln, wie Ihre Umgebung für einen Stream vorbereitet sein muss. Dazu gehören die Konfiguration der Quelldatenbank und die Konfiguration von BigQuery.

  5. Klicken Sie auf WEITER. Der Bereich PostgreSQL-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.

Informationen zum Quellverbindungsprofil angeben

  1. Wählen Sie im Menü Quellverbindungsprofil das Quellverbindungsprofil für die PostgreSQL-Datenbank aus.

  2. Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und Datastream miteinander kommunizieren können.

    Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Weitere Informationen zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.

  3. Klicken Sie auf WEITER. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zur Quelldatenbank für den Stream konfigurieren

  1. Geben Sie den Namen des Replikationsslots und der Publikation für Ihre Quelldatenbank an. Der Replikationsslot und die Publikation wurden beim Konfigurieren der PostgreSQL-Datenbank erstellt.

  2. Geben Sie im Menü Einzuschließende Objekte die Tabellen und Schemas in Ihrer Quelldatenbank an, die Datastream in BigQuery repliziert. Das Menü wird nur geladen,wenn Ihre Datenbank bis zu 5.000 Objekte enthält.

    In dieser Kurzanleitung soll Datastream alle Tabellen und Schemas übertragen. Wählen Sie daher im Menü die Option Alle Tabellen aus allen Schemas aus.

  3. Klicken Sie auf WEITER. Der Bereich BigQuery-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.

Zielverbindungsprofil auswählen

  1. Wählen Sie im Menü Zielverbindungsprofil Ihr Zielverbindungsprofil für BigQuery aus.

  2. Klicken Sie auf WEITER. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zum Ziel für den Stream konfigurieren

  1. Wählen Sie die Option Dataset für jedes Schema aus, damit Datastream automatisch für jedes Schema in der Quelldatenbank ein Dataset in BigQuery erstellt.

  2. Wählen Sie den Standort aus, an dem die Datasets in BigQuery erstellt werden. Dieser Standort muss nicht mit der Region übereinstimmen, in der der Datastream-Stream erstellt wird.

  3. Legen Sie als Präfix quickstart- fest. Datastream fügt diesen String am Anfang jedes Datasets hinzu, das in BigQuery erstellt wird.

  4. Belassen Sie in der Drop-down-Liste Geben Sie das Limit für die Datenveralterung 15 Minuten ein. Anhand dieses Werts entscheidet BigQuery, wie veraltet Ihre Daten nach der Abfrage sein können.

  5. Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Stream erstellen

  1. Prüfen Sie Details zum Stream sowie zum Quell- und Zielverbindungsprofil, mit dem der Stream Daten aus einer PostgreSQL-Quelldatenbank an BigQuery überträgt.

  2. Klicken Sie auf VALIDIERUNG AUSFÜHREN, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.

  3. Wenn alle Validierungsprüfungen erfolgreich waren, klicken Sie auf ERSTELLEN.

  4. Klicken Sie im Dialogfeld Stream erstellen? auf ERSTELLEN.

Stream starten

Im vorherigen Abschnitt der Kurzanleitung haben Sie einen Stream erstellt, aber nicht gestartet. Das können Sie jetzt tun.

In dieser Kurzanleitung erstellen und starten Sie einen Stream separat, für den Fall, dass der Stream-Erstellungsprozess eine erhöhte Belastung Ihrer Quelldatenbank verursacht. Um diesen Ladevorgang auszugleichen, erstellen Sie den Stream, ohne ihn zu starten. Dann starten Sie den Stream, wenn die Last erreicht werden kann.

Durch das Starten des Streams kann Datastream Daten, Schemas und Tabellen von der Quelldatenbank zum Ziel übertragen.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie das Kästchen links neben dem Stream an, den Sie starten möchten. In dieser Kurzanleitung ist dies Mein Stream.

  3. Klicken Sie auf START (Starten).

  4. Klicken Sie im Dialogfeld auf STARTEN. Der Status des Streams ändert sich von Not started in Starting in Running.

    Nachdem Sie einen Stream gestartet haben, können Sie überprüfen, ob Datastream Daten aus der Quelldatenbank zum Ziel übertragen hat.

Stream prüfen

In diesem Abschnitt bestätigen Sie, dass Datastream die Daten aus allen Tabellen der PostgreSQL-Quelldatenbank an BigQuery überträgt.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf den Stream, den Sie erstellt haben. In dieser Kurzanleitung ist dies Mein Stream.

  3. Klicken Sie auf der Seite Stream-Details auf den Link, der unter dem Feld Zielschreibpfad angezeigt wird. BigQuery Studio wird in einem separaten Tab geöffnet.

  4. Prüfen Sie, ob Datasets und Tabellen angezeigt werden, die Schemas und Tabellen der PostgreSQL-Quelldatenbank darstellen.

  5. Klicken Sie auf eine der Tabellen, um eine Vorschau Ihrer Daten zu sehen.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.

  1. Verwenden Sie die Google Cloud Console, um Ihr Projekt, den Datastream-Stream und die Verbindungsprofile sowie BigQuery-Datasets zu löschen.

Bereinigen Sie die Ressourcen, die Sie in Datastream erstellt haben, damit sie kein Kontingent verbrauchen und Ihnen in Zukunft nicht in Rechnung gestellt werden. In den folgenden Abschnitten wird erläutert, wie Sie diese Ressourcen löschen oder deaktivieren.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für diese Kurzanleitung erstellten Projekts.

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite "Ressourcen verwalten"

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.

  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Herunterfahren, um das Projekt zu löschen.

Stream löschen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf den Stream, den Sie löschen möchten. In dieser Kurzanleitung ist dies Mein Stream.

  3. Klicken Sie auf PAUSIEREN.

  4. Klicken Sie im Dialogfeld auf PAUSIEREN.

  5. Prüfen Sie im Bereich Streamstatus der Seite Stream-Details, ob der Status des Streams Paused ist.

  6. Klicken Sie auf Delete.

  7. Geben Sie im Dialogfeld Delete in das Textfeld ein und klicken Sie dann auf LÖSCHEN.

Verbindungsprofile löschen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf das Kästchen neben jedem Verbindungsprofil, das Sie löschen möchten. Klicken Sie für diesen Schnellstart die Kästchen für My Source Connection Profile (Mein Quellverbindungsprofil) und My Destination Connection Profile (Mein Quellverbindungsprofil) an.

  3. Klicken Sie auf Delete.

  4. Klicken Sie im Dialogfeld auf LÖSCHEN.

BigQuery-Datasets löschen

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery Studio auf.

    Zu BigQuery Studio

  2. Maximieren Sie den Projektknoten, in dem Sie diese Kurzanleitung erstellt haben.

  3. Klicken Sie für jedes Dataset, das Sie löschen möchten, auf das Menü Aktionen ansehen und dann auf Löschen.

  4. Geben Sie im Dialogfeld delete in das Textfeld ein und klicken Sie dann auf LÖSCHEN.

Nächste Schritte