Hier erfahren Sie, wie Sie Daten aus einer Quelldatenbank mit Datastream in BigQuery-Datasets replizieren.
Klicken Sie auf Anleitung, um eine detaillierte Anleitung für diese Aufgabe direkt in der Google Cloud Console aufzurufen.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
-
Enable the Datastream API.
- Achten Sie darauf, dass Ihrem Nutzerkonto die Rolle „Datastream-Administrator“ zugewiesen ist.
Wenn Sie eine Konfiguration für private Verbindungen für eine Standard- oder freigegebene VPC erstellen möchten müssen Sie zusätzliche Voraussetzungen erfüllen. Weitere Informationen finden Sie unter Konfiguration für private Verbindungen erstellen.
Voraussetzungen
Datastream bietet eine Vielzahl von Quelloptionen, Zieloptionen und Netzwerkverbindungsmethoden.
In dieser Kurzanleitung wird davon ausgegangen, dass Sie Daten aus einer Cloud SQL for PostgreSQL-Datenbank in BigQuery replizieren. Für die Quelldatenbank sollten Sie die Datenbankinstanz so konfigurieren können, dass Verbindungen von öffentlichen Datastream-IP-Adressen akzeptiert werden.
Da wir die Besonderheiten Ihrer Umgebung nicht kennen, können wir keine detaillierten Schritte in Bezug auf Ihre Netzwerkkonfiguration anbieten.
In dieser Kurzanleitung wählen Sie als Methode zur Netzwerkverbindung die Option Zulassungsliste für IP-Adressen aus. IP-Zulassungslisten sind eine Sicherheitsfunktion, mit der der Zugriff auf die Daten in Ihrer Quelldatenbank häufig auf vertrauenswürdige Nutzer beschränkt und gesteuert wird. Sie können IP-Zulassungslisten verwenden, um Listen mit vertrauenswürdigen IP-Adressen oder IP-Bereichen zu erstellen, von denen Ihre Nutzer und andere Cloud-Dienste wie Datastream auf diese Daten zugreifen können. Wenn Sie IP-Zulassungslisten verwenden möchten, müssen Sie die Cloud SQL-Quelldatenbank für eingehende Datastream-Verbindungen öffnen.
Verbindungsprofile erstellen
Durch das Erstellen von Verbindungsprofilen speichern Sie einige grundlegende Informationen zur Quelle und zum Ziel in Datastream. Diese Informationen lassen sich dann in mehreren Streams wiederverwenden.
Für diese Kurzanleitung wählen Sie PostgreSQL als Profiltyp für das Quellverbindungsprofil und BigQuery als Profiltyp für das Zielverbindungsprofil aus. Datastream verwendet die Informationen in den Verbindungsprofilen, um eine Verbindung zur Quelldatenbank und zu BigQuery herzustellen.
Quellverbindungsprofil für PostgreSQL-Datenbank erstellen
Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.
Klicken Sie auf PROFIL ERSTELLEN.
Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp PostgreSQL, da Sie ein Quellverbindungsprofil für die PostgreSQL-Datenbank erstellen möchten.
Geben Sie auf der Seite PostgreSQL-Profil erstellen im Abschnitt Verbindungseinstellungen definieren die folgenden Informationen an:
- Geben Sie
My Source Connection Profile
als Verbindungsprofilname für Ihre Quelldatenbank ein. - Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.
Geben Sie Verbindungsdetails ein:
- Geben Sie im Feld Hostname oder IP einen Hostnamen oder eine öffentliche IP-Adresse ein, über die Datastream eine Verbindung zur PostgreSQL-Quelldatenbank herstellen kann. Sie stellen eine öffentliche IP-Adresse bereit, da die IP-Zulassungsliste als Methode zur Netzwerkverbindung für diese Kurzanleitung verwendet wird.
- Geben Sie in das Feld Port die Portnummer ein, die für die Quelldatenbank reserviert ist. Bei einer PostgreSQL-Datenbank ist der Standardport normalerweise
5432
. - Geben Sie einen Nutzernamen und ein Passwort ein, um sich bei Ihrer Quelldatenbank zu authentifizieren.
- Geben Sie im Feld Datenbank den Namen ein, der die Datenbankinstanz identifiziert. Bei PostgreSQL-Datenbanken ist dies in der Regel
postgres
.
- Geben Sie
Klicken Sie im Abschnitt Verbindungseinstellungen definieren auf WEITER. Der Abschnitt Verbindungsmethode festlegen auf der Seite PostgreSQL-Profil erstellen ist aktiv.
Wählen Sie die Netzwerkmethode aus, mit der Sie eine Verbindung zwischen der Quelldatenbank und Datastream herstellen möchten. Wählen Sie für diese Kurzanleitung im Drop-down-Menü Verbindungsmethode die Option IP-Zulassungsliste als Netzwerkmethode aus.
Konfigurieren Sie die Quelldatenbank so, dass eingehende Verbindungen von den öffentlichen Datastream-IP-Adressen zugelassen werden.
Klicken Sie im Abschnitt Verbindungsmethode festlegen auf WEITER. Auf der Seite PostgreSQL-Profil erstellen ist der Abschnitt Verbindungsprofil testen aktiv.
Klicken Sie auf TEST AUSFÜHREN, um zu prüfen, ob die PostgreSQL-Quelldatenbank und Datastream miteinander kommunizieren können.
Überprüfen Sie, ob der Status "Test bestanden" angezeigt wird.
Wenn der Test fehlschlägt, können Sie das Problem an der entsprechenden Stelle des Ablaufs beheben und dann zum erneuten Test zurückkehren. Schritte zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren.
Klicken Sie auf ERSTELLEN.
Ein Zielverbindungsprofil für BigQuery erstellen
Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.
Klicken Sie auf PROFIL ERSTELLEN.
Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp BigQuery, da Sie ein Zielverbindungsprofil für BigQuery erstellen möchten.
Geben Sie auf der Seite BigQuery-Profil erstellen die folgenden Informationen an:
- Geben Sie
My Destination Connection Profile
als Verbindungsprofilname für Ihren Ziel-BigQuery-Dienst ein. - Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
- Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.
- Geben Sie
Klicken Sie auf ERSTELLEN.
Nachdem Sie ein Quellverbindungsprofil für die PostgreSQL-Datenbank und ein Zielverbindungsprofil für BigQuery erstellt haben, können Sie damit einen Stream erstellen.
Stream erstellen
In diesem Abschnitt erstellen Sie einen Stream, um Daten aus einer PostgreSQL-Quelldatenbank in BigQuery zu replizieren.
Das Erstellen eines Streams umfasst:
- Einstellungen für den Stream festlegen.
- Das Verbindungsprofil auswählen, das Sie für Ihre Quelldatenbank erstellt haben (das Quellverbindungsprofil). In dieser Kurzanleitung ist das Mein Quellverbindungsprofil.
- Konfigurieren Sie Informationen zur Quelldatenbank für den Stream, indem Sie die Replikationsattribute sowie die Tabellen und Schemas in der Quelldatenbank angeben, die Datastream:
- In das Ziel übertragen kann.
- Nicht in das Ziel übertragen darf.
- Festlegen, ob Datastream Verlaufsdaten per Backfill auffüllt, laufende Änderungen in das Ziel streamt oder nur Änderungen an den Daten streamt.
- Wählen Sie das Verbindungsprofil aus, das Sie für BigQuery erstellt haben (das Zielverbindungsprofil). In dieser Kurzanleitung ist das Mein Zielverbindungsprofil.
- Informationen zum Ziel für den Stream konfigurieren, z. B. die BigQuery-Datasets.
- Der Stream wird überprüft.
Einstellungen für den Stream festlegen
Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.
Klicken Sie auf STREAM ERSTELLEN.
Geben Sie auf der Seite Stream erstellen im Bereich Streamdetails definieren die folgenden Informationen an:
- Geben Sie
My Stream
als Streamname ein. - Behalten Sie die automatisch generierte Stream-ID bei.
- Wählen Sie im Menü Region die Region aus, in der Sie Ihr Quellverbindungsprofil erstellt haben.
- Wählen Sie im Menü Quelltyp den Profiltyp PostgreSQL aus.
- Wählen Sie im Menü Zieltyp den Profiltyp BigQuery aus.
- Geben Sie
Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um widerzuspiegeln, wie Ihre Umgebung für einen Stream vorbereitet sein muss. Dazu gehört auch die Konfiguration der Quelldatenbank und von BigQuery.
Klicken Sie auf WEITER. Auf der Seite Stream erstellen wird der Bereich PostgreSQL-Verbindungsprofil definieren angezeigt.
Informationen zum Quellverbindungsprofil angeben
Wählen Sie im Menü Quellverbindungsprofil Ihr Quellverbindungsprofil für die PostgreSQL-Datenbank aus.
Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und der Datenstrom miteinander kommunizieren können.
Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Schritte zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.
Klicken Sie auf WEITER. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.
Informationen zur Quelldatenbank für den Stream konfigurieren
Geben Sie den Namen des Replikationsslots und der Publikation für die Quelldatenbank an. Der Replikationsslot und die Publikation wurden beim Konfigurieren der PostgreSQL-Datenbank erstellt.
Verwenden Sie das Menü Aufzunehmende Objekte, um die Tabellen und Schemas in Ihrer Quelldatenbank anzugeben, die Datastream in BigQuery replizieren wird. Das Menü wird nur geladen, wenn Ihre Datenbank maximal 5.000 Objekte enthält.
In dieser Kurzanleitung soll Datastream alle Tabellen und Schemas übertragen. Wählen Sie daher im Menü die Option Alle Tabellen aus allen Schemas aus.
Klicken Sie auf WEITER. Der Bereich BigQuery-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.
Zielverbindungsprofil auswählen
Wählen Sie im Menü Zielverbindungsprofil das Zielverbindungsprofil für BigQuery aus.
Klicken Sie auf WEITER. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.
Informationen zum Ziel für den Stream konfigurieren
Wählen Sie die Option Dataset für jedes Schema aus, damit Datastream automatisch in BigQuery für jedes Schema in der Quelldatenbank ein Dataset erstellt.
Wählen Sie den Speicherort aus, an dem die Datasets in BigQuery erstellt werden. Dieser Standort muss nicht mit der Erstellungsregion des Datastream-Streams übereinstimmen.
Legen Sie als Prefix
quickstart-
fest. Datastream fügt diesen String am Anfang jedes Datasets ein, das in BigQuery erstellt wird.Belassen Sie den Wert im Stream-Schreibmodus auf Merge. So bleiben die Tabellen in BigQuery mit der Quelle synchronisiert.
Lassen Sie den Wert in der Drop-down-Liste Limit der Datenveralterung angeben auf 15 Minuten. Anhand dieses Werts entscheidet BigQuery, wie aktuell Ihre Daten bei der Abfrage sind.
Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.
Stream erstellen
Prüfen Sie Details zum Stream sowie die Quell- und Zielverbindungsprofile, die der Stream zur Übertragung von Daten von einer PostgreSQL-Quelldatenbank in BigQuery verwenden wird.
Klicken Sie auf VALIDIERUNG AUSFÜHREN, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.
Wenn alle Validierungsprüfungen erfolgreich waren, klicken Sie auf ERSTELLEN.
Klicken Sie im Dialogfeld Stream erstellen? auf ERSTELLEN.
Stream starten
Im vorherigen Abschnitt der Kurzanleitung haben Sie einen Stream erstellt, aber nicht gestartet. Das können Sie jetzt tun.
In dieser Kurzanleitung erstellen und starten Sie einen Stream separat, für den Fall, dass der Stream-Erstellungsprozess eine erhöhte Belastung Ihrer Quelldatenbank verursacht. Um diesen Ladevorgang auszugleichen, erstellen Sie den Stream, ohne ihn zu starten. Dann starten Sie den Stream, wenn die Last erreicht werden kann.
Durch das Starten des Streams kann Datastream Daten, Schemas und Tabellen von der Quelldatenbank zum Ziel übertragen.
Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.
Klicken Sie das Kästchen links neben dem Stream an, den Sie starten möchten. In dieser Kurzanleitung ist dies Mein Stream.
Klicken Sie auf START (Starten).
Klicken Sie im Dialogfeld auf STARTEN. Der Status des Streams ändert sich von
Not started
inStarting
inRunning
.Nachdem Sie einen Stream gestartet haben, können Sie überprüfen, ob Datastream Daten aus der Quelldatenbank zum Ziel übertragen hat.
Stream prüfen
In diesem Abschnitt bestätigen Sie, dass Datastream die Daten aus allen Tabellen Ihrer PostgreSQL-Quelldatenbank zu BigQuery überträgt.
Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.
Klicken Sie auf den Stream, den Sie erstellt haben. In dieser Kurzanleitung ist dies Mein Stream.
Klicken Sie auf der Seite Stream-Details auf den Link, der unter dem Feld Zielschreibpfad angezeigt wird. BigQuery Studio wird in einem separaten Tab geöffnet.
Prüfen Sie, ob Sie Datasets und Tabellen sehen, die Schemas und Tabellen Ihrer PostgreSQL-Quelldatenbank darstellen.
Klicken Sie auf eine der Tabellen, um eine Vorschau Ihrer Daten zu sehen.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
- Verwenden Sie die Google Cloud Console, um Ihr Projekt, den Datastream-Stream und die Verbindungsprofile sowie die BigQuery-Datasets zu löschen.
Bereinigen Sie die Ressourcen, die Sie in Datastream erstellt haben, damit sie kein Kontingent verbrauchen und Ihnen in Zukunft nicht in Rechnung gestellt werden. In den folgenden Abschnitten wird erläutert, wie Sie diese Ressourcen löschen oder deaktivieren.
Projekt löschen
Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für diese Kurzanleitung erstellten Projekts.
Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.
Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Herunterfahren, um das Projekt zu löschen.
Stream löschen
Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.
Klicken Sie auf den Stream, den Sie löschen möchten. In dieser Kurzanleitung ist dies Mein Stream.
Klicken Sie auf PAUSIEREN.
Klicken Sie im Dialogfeld auf PAUSIEREN.
Prüfen Sie im Bereich Streamstatus der Seite Stream-Details, ob der Status des Streams
Paused
ist.Klicken Sie auf Delete.
Geben Sie im Dialogfeld
Delete
in das Textfeld ein und klicken Sie dann auf LÖSCHEN.
Verbindungsprofile löschen
Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.
Klicken Sie auf das Kästchen neben jedem Verbindungsprofil, das Sie löschen möchten. Klicken Sie für diese Kurzanleitung die Kästchen für My Source Connection Profile (Mein Quellverbindungsprofil) und My Destination Connection Profile (Mein Zielverbindungsprofil) an.
Klicken Sie auf Delete.
Klicken Sie im Dialogfeld auf LÖSCHEN.
BigQuery-Datasets löschen
Rufen Sie in der Google Cloud Console die Seite BigQuery Studio auf.
Maximieren Sie den Projektknoten, in dem Sie diese Kurzanleitung erstellt haben.
Klicken Sie für jedes Dataset, das Sie löschen möchten, auf das Dreipunkt-Menü Aktionen ansehen und dann auf Löschen.
Geben Sie im Dialogfeld
delete
in das Textfeld ein und klicken Sie dann auf LÖSCHEN.
Nächste Schritte
- Weitere Informationen zu Datastream
- Weitere Google Cloud-Features mit unseren Kurzanleitungen testen.
- Change Data Capture-Tabellen in BigQuery verwenden