Übersicht
In diesem Abschnitt erfahren Sie, wie Sie einen Stream erstellen. Datastream verwendet diesen Stream, um Daten aus einer Oracle-, MySQL-, SQL Server- oder PostgreSQL-Quelldatenbank in BigQuery oder Cloud Storage zu übertragen.
Das Erstellen eines Streams umfasst:
- Einstellungen für den Stream festlegen.
- Das Verbindungsprofil auswählen, das Sie für die Oracle-, MySQL-, SQL Server- oder PostgreSQL-Quelldatenbank (das Quellverbindungsprofil) erstellt haben, oder ein Quellverbindungsprofil erstellen, wenn Sie noch keines erstellt haben.
- Informationen über die Quelldatenbank für den Stream konfigurieren, indem Tabellen und Schemata in der Quelldatenbank angegeben werden, die Datastream:
- In das Ziel übertragen kann.
- Nicht in das Ziel übertragen darf.
Festlegen, ob Datastream Verlaufsdaten per Backfill auffüllt, laufende Änderungen in das Ziel streamt oder nur Änderungen an den Daten streamt. Bei Aktivierung des Verlaufsdaten-Backfills können Sie optional Schemas und Tabellen in der Quelldatenbank angeben, die Datastream nicht per Backfill im Ziel auffüllen soll.
Wählen Sie das Verbindungsprofil aus, das Sie für BigQuery oder Cloud Storage (das Zielverbindungsprofil) erstellt haben, oder erstellen Sie ein Zielverbindungsprofil, falls Sie noch keines erstellt haben.
Hier werden Informationen zum Ziel des Streams konfiguriert. Zu diesen Daten gehören:
- Für BigQuery:
- Die Datasets, in die Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank repliziert.
- Für Cloud Storage:
- Der Ordner des Ziel-Buckets, in den Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank überträgt.
- Für BigQuery:
Überprüfung des Streams, um sicherzustellen, dass er erfolgreich ausgeführt wird. Dabei wird Folgendes geprüft:
- Ob die Quelle ordnungsgemäß konfiguriert ist, damit Datastream Daten von ihr streamen kann.
Ob er sowohl mit der Quelle als auch mit dem Ziel verbunden werden kann.
Die End-to-End-Konfiguration des Streams.
Einstellungen für den Stream festlegen
Rufen Sie in der Google Cloud Console die Seite Streams auf.
Klicken Sie auf STREAM ERSTELLEN.
Verwenden Sie die folgende Tabelle, um die Felder im Bereich Streamdetails definieren der Seite Stream erstellen auszufüllen:
Feld Beschreibung Name des Streams Geben Sie den Anzeigenamen des Streams ein. Stream-ID Datastream füllt dieses Feld automatisch basierend auf dem von Ihnen eingegebenen Stream-Namen aus. Sie können die automatisch generierte ID beibehalten oder ändern. Region Wählen Sie die Region aus, in der der Stream gespeichert ist. Streams werden wie alle Ressourcen in einer Region gespeichert. Die Auswahl der Region hat keinen Einfluss darauf, ob Ihr Stream eine Verbindung zur Quelldatenbank oder zum Ziel herstellen kann. Sie kann sich jedoch auf die Verfügbarkeit auswirken, wenn in der Region Ausfallzeiten auftreten. Quelltyp Wählen Sie den Profiltyp aus, den Sie beim Erstellen eines Verbindungsprofils für eine Oracle-, MySQL-, SQL Server- oder PostgreSQL-Quelldatenbank angegeben haben. Wenn Sie noch kein Verbindungsprofil für die Quelldatenbank erstellt haben, können Sie jetzt eins erstellen.
Zieltyp Wählen Sie den Profiltyp aus, den Sie beim Erstellen eines Verbindungsprofils für ein BigQuery- oder Cloud Storage-Ziel angegeben haben. Wenn Sie noch kein Verbindungsprofil für das Ziel erstellt haben, können Sie jetzt eins erstellen. Verschlüsselung Standardmäßig werden Ihre Daten mit einem von Google Cloud verwalteten Schlüssel verschlüsselt. Wenn Sie die Verschlüsselung selbst verwalten möchten, können Sie einen vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK) verwenden:
- Klicken Sie das Kästchen Cloud KMS-Schlüssel an.
- Wählen Sie im Drop-down-Menü Schlüsseltyp die Option Cloud KMS und dann Ihren CMEK aus.
Wenn Ihr Schlüssel nicht angezeigt wird, klicken Sie auf ENTER KEY RESOURCE NAME (Schlüsselressourcenname eingeben), um den Ressourcennamen des Schlüssels anzugeben, den Sie verwenden möchten. Sie können beispielsweise
projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key
in das Feld Name der Hauptressource eingeben und dann auf SPEICHERN klicken.Optional können Sie Labels verwenden, um Ihre Datastream-Ressourcen zu organisieren.
- Zum Erstellen eines Labels klicken Sie auf LABEL HINZUFÜGEN und geben dann das Schlüssel/Wert-Paar für das Label ein.
- Zum Entfernen des Labels klicken Sie auf das Papierkorbsymbol rechts neben der Zeile, die das Label enthält.
Optional: Fügen Sie Benachrichtigungsrichtlinien für Ihren Stream hinzu. Mit Benachrichtigungsrichtlinien wird festgelegt, wann und wie Sie bei Streamfehlern benachrichtigt werden möchten.
- Klicken Sie auf Benachrichtigungsrichtlinie hinzufügen, um eine Benachrichtigungsrichtlinie zu erstellen.
- Die Seite Benachrichtigungsrichtlinie erstellen wird in Cloud Monitoring angezeigt. Auf dieser Seite definieren Sie die Benachrichtigungsrichtlinie für den Fall, dass der Stream fehlschlägt.
Weitere Informationen zu Benachrichtigungsrichtlinien finden Sie unter Messwertbasierte Benachrichtigungsrichtlinien verwalten.
Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um zu sehen, wie die Umgebung für einen Stream vorbereitet werden muss. Zu diesen Voraussetzungen können beispielsweise die Konfiguration der Quelldatenbank und die Art der Verbindung mit dem Ziel gehören. Es ist am besten, diese Voraussetzungen in diesem Schritt abzuschließen. Sie können sie aber auch jederzeit abschließen, bevor Sie den Stream testen oder starten. Weitere Informationen zu diesen Voraussetzungen finden Sie unter Quellen.
Klicken Sie auf WEITER. Der Bereich Verbindungsprofil definieren der Seite Stream erstellen wird für Ihren Quelldatenbanktyp angezeigt.
Informationen zum Quellverbindungsprofil angeben
Wenn Sie ein Quellverbindungsprofil für Oracle, MySQL, SQL Server oder PostgreSQL erstellt haben, wählen Sie es aus der Liste der Verbindungsprofile aus.
Wenn Sie noch kein Quellverbindungsprofil erstellt haben, klicken Sie unten in der Drop-down-Liste auf VERBINDUNGSPROFIL ERSTELLEN und führen Sie dann die gleichen Schritte wie unter Verbindungsprofile erstellen aus.
Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und Datastream miteinander kommunizieren können.
Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Schritte zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.
Klicken Sie auf WEITER. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.
Informationen zur Quelldatenbank für den Stream konfigurieren
PostgreSQL-Quelldatenbank konfigurieren
Wenn Sie PostgreSQL als Quelldatenbank ausgewählt haben, müssen Sie die Replikationseigenschaften definieren.
- Geben Sie im Abschnitt Replikationsattribute die folgenden Attribute an:
- Geben Sie im Feld Name des Replikationsslots den Namen des Slots ein, den Sie speziell für diesen Stream erstellt haben. Der Datenbankserver verwendet diesen Slot, um Ereignisse an Datastream zu senden.
- Geben Sie im Feld Name der Publikation den Namen der Publikation ein, die Sie in der Datenbank erstellt haben. Eine Publikation ist eine Gruppe aller Tabellen, in denen Sie Änderungen aus diesem Stream replizieren möchten.
- Führen Sie die Schritte im Abschnitt Quelldatenbanken konfigurieren aus.
SQL Server-Quelldatenbank konfigurieren
Wenn Sie SQL Server als Quelldatenbank ausgewählt haben, müssen Sie die CDC-Methode definieren.
Wählen Sie im Drop-down-Menü CDC-Methode die CDC-Methode aus, die der Konfiguration Ihrer Quelldatenbank entspricht:
- Transaktionslogs: Wählen Sie diese Methode aus, um Änderungen direkt aus den Datenbank-Logs zu verarbeiten. Diese Methode bietet die beste Leistung und ist effizienter, erfordert jedoch zusätzliche Konfigurationsschritte.
- Änderungstabellen: Wählen Sie diese Methode aus, um Änderungen aus speziellen Änderungstabellen zu verarbeiten. Diese Methode ist einfacher zu konfigurieren und hat weniger Einschränkungen, unterstützt aber einen niedrigeren Durchsatz und führt zu einer höheren Belastung Ihrer Datenbank als die Transaktionslogmethode.
Weitere Informationen zum Konfigurieren der SQL Server-Quelldatenbank finden Sie unter SQL Server-Quelldatenbank konfigurieren.
Führen Sie die Schritte im Abschnitt Quelldatenbanken konfigurieren aus.
Quelldatenbanken konfigurieren
Geben Sie im Abschnitt Einzuschließende Objekte auswählen im Drop-down-Menü Einzuschließende Objekte die Tabellen und Schemas in der Quelldatenbank an, die Datastream an das Ziel übertragen kann.
- Wenn Datastream alle Tabellen und Schemas übertragen soll, wählen Sie Alle Tabellen aus allen Schemas aus.
Wenn über Datastream nur bestimmte Tabellen und Schemas übertragen werden sollen, wählen Sie Bestimmte Schemas und Tabellen aus und klicken Sie dann die Kästchen für die Schemas und Tabellen an, die von Datastream abgerufen werden sollen.
Wenn Sie eine Textdefinition der Tabellen und Schemas angeben möchten, die Datastream übertragen soll, wählen Sie Benutzerdefiniert und dann im Feld Objektabgleichskriterien aus. Geben Sie die Schemas und Tabellen ein, die Datastream abrufen soll.
Wenn Ihre Datenbank eine große Anzahl von Tabellen und Schemas enthält, empfehlen wir die Verwendung der Option Benutzerdefiniert, da einige Tabellen und Schemas möglicherweise nicht in der Liste der abzurufenden Objekte enthalten sind.
Maximieren Sie optional den Knoten Auszuschließende Objekte auswählen. Geben Sie im Feld Auszuschließende Objekte die Tabellen und Schemas in der Quelldatenbank ein, die Datastream nicht abrufen soll. Die Liste Auszuschließende Objekte hat Vorrang vor der Liste Einzuschließende Objekte. Wenn ein Objekt die Kriterien in den Listen zum Ein- und Ausschließen erfüllt, wird es aus dem Stream ausgeschlossen.
- Maximieren Sie optional den Knoten Backfill-Modus für Verlaufsdaten auswählen und treffen Sie eine der folgenden Auswahlen:
Wählen Sie die Option Automatisch aus, um alle vorhandenen Daten sowie Änderungen an den Daten von der Quelle in das Ziel zu streamen.
Geben Sie im Feld Vom automatischen Backfill ausgeschlossene Objekte die Tabellen und Schemas in der Quelldatenbank ein, für die Sie den Backfill von Datastream in das Ziel einschränken möchten.
- Wählen Sie die Option Manuell aus, um nur Änderungen an den Daten in das Ziel zu streamen.
Klicken Sie auf WEITER. Der Bereich Verbindungsprofil definieren der Seite Stream erstellen wird für Ihren Zieltyp angezeigt.
Zielverbindungsprofil auswählen
Wenn Sie ein Zielverbindungsprofil erstellt haben, wählen Sie es aus der Liste der Verbindungsprofile aus.
Wenn Sie noch kein Zielverbindungsprofil erstellt haben, klicken Sie unten in der Drop-down-Liste auf VERBINDUNGSPROFIL ERSTELLEN und führen Sie dann die gleichen Schritte wie unter Verbindungsprofile erstellen aus.
Klicken Sie auf WEITER. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.
Informationen zum Ziel für den Stream konfigurieren
BigQuery-Ziel
Geben Sie unter Verbindung von Datastream zu BigQuery konfigurieren an, wie Datastream in ein BigQuery-Dataset gestreamt werden soll. Wählen Sie eine der folgenden Optionen aus:
Dataset für jedes Schema: Datastream erstellt für jedes Quellschema ein BigQuery-Dataset, das auf dem Schemanamen basiert.
Wenn Sie diese Option auswählen, erstellt Datastream für jedes Schema in der Quelldatenbank ein Dataset im Projekt, das den Stream enthält.
Wenn Sie die Option Dataset für jedes Schema auswählen, gilt Folgendes:
- Geben Sie im Feld Speicherort die Region ein, in der das neue Dataset erstellt werden soll.
- Optional: Definieren Sie im Feld Präfix ein Präfix für den Datensatz, der vom Stream erstellt wird. Der angegebene String wird dem Namen des Quellschemas hinzugefügt. Wenn das Schema beispielsweise
<mySchema>
heißt und Sie das Dataset-Präfix als<myPrefix>
definieren, wird in Datastream ein Dataset mit dem Namen<myPrefix><mySchema>
erstellt. - Geben Sie an, wie Ihre Daten in BigQuery verschlüsselt werden sollen. Wählen Sie dazu einen von Google oder vom Kunden verwalteten Verschlüsselungsschlüssel aus.
Ein einzelnes Dataset für alle Schemas: Datastream erstellt alle Tabellen im von Ihnen angegebenen vorhandenen BigQuery-Dataset. Jede von Datastream erstellte Tabelle wird durch eine Kombination aus dem Namen des Quellschemas und dem Tabellennamen benannt, die durch einen Unterstrich getrennt sind (z. B.
).<mySchemaName>_<myTableName>
Geben Sie den Streamschreibmodus an. Wählen Sie den Schreibmodus aus, um zu definieren, wie Daten in BigQuery geschrieben und verarbeitet werden:
- Zusammenführen: Wählen Sie diese Option aus, wenn Ihre Daten mit der Quelle synchronisiert werden sollen.
- Nur anfügen: Wählen Sie diese Option aus, wenn Sie alle Verlaufsdaten für die Änderungsereignisse behalten möchten.
Geben Sie das Limit für veraltete Daten an. Diese Option ist nur verfügbar, wenn im vorherigen Schritt der Modus Zusammenführen ausgewählt wurde. Wählen Sie ein Limit aus, um ein Gleichgewicht zwischen Leistung und Kosten von BigQuery-Abfragen und der Datenaktualität herzustellen. Je nach Limit für die Veralterung wendet BigQuery die Änderungen laufend im Hintergrund oder bei der Abfrageausführung an. Ein geringerer Wert (jüngere Daten) kann die BigQuery-Verarbeitungskosten erhöhen.
Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.
Cloud Storage-Ziel
Geben Sie optional in das Feld Stream-Pfadpräfix den Ordner des Ziel-Buckets ein, in den Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank übertragen soll.
Wenn Sie beispielsweise möchten, dass Datastream Daten aus der Quelldatenbank in den Ordner
/root/example
im Ziel-Bucket überträgt, geben Sie/root/example
in das Feld Stream-Pfadpräfix ein.Wählen Sie im Feld Ausgabeformat das Format der in Cloud Storage geschriebenen Dateien aus.
Optional. Wenn Sie das JSON-Format auswählen, werden zwei Kästchen angezeigt:
- „Unified Types-Schema“ in den Dateipfad einfügen: Wenn Sie dieses Kästchen anklicken, schreibt Datastream zwei Dateien in Cloud Storage: eine JSON-Datendatei und eine Avro-Schema-Datei. Die Schemadatei hat denselben Namen wie die Datendatei, aber mit der Erweiterung
.schema
. Wenn Sie dieses Kästchen nicht anklicken, schreibt Datastream nur die JSON-Datendatei in Cloud Storage. Dieses Kästchen ist standardmäßig nicht angeklickt. - Gzip-Komprimierung aktivieren: Wenn Sie dieses Kästchen anklicken, verwendet Datastream das Dienstprogramm
gzip
, um die Dateien zu komprimieren, die Datastream in Cloud Storage schreibt. Wenn Sie dieses Kästchen nicht anklicken, schreibt Datastream die Dateien in Cloud Storage, ohne sie zu komprimieren. Dieses Kästchen ist standardmäßig ausgewählt.
- „Unified Types-Schema“ in den Dateipfad einfügen: Wenn Sie dieses Kästchen anklicken, schreibt Datastream zwei Dateien in Cloud Storage: eine JSON-Datendatei und eine Avro-Schema-Datei. Die Schemadatei hat denselben Namen wie die Datendatei, aber mit der Erweiterung
Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.
Stream erstellen
- Überprüfen Sie die Details zum Stream sowie die Quell- und Zielverbindungsprofile, die der Stream zum Übertragen von Daten aus einer Quelldatenbank in ein Ziel verwendet.
Klicken Sie auf VALIDIERUNG AUSFÜHREN, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.
Wenn Ihre Quelldatenbank Oracle ist, führt Datastream die folgenden Prüfungen durch:
Häkchen Beschreibung Gültigkeit der Objektliste Datastream kontrolliert, dass die Ausschlussliste nicht die Einschlussliste umfasst. Verbindung für Weiterleitungs-SSH-Tunnel Datastream kontrolliert, dass es über einen Weiterleitungs-SSH-Tunnel eine Verbindung zu einem Bastion Host herstellen kann. Verbindung zur Oracle-Datenbank Datastream kontrolliert, dass eine Verbindung zur Oracle-Quelldatenbank hergestellt werden kann. Oracle-Nutzerberechtigungen Datastream kontrolliert, dass der Nutzer, der zum Herstellen einer Verbindung zur Quelldatenbank verwendet wird, alle erforderlichen Berechtigungen zum Abrufen von Schemas, Tabellen und Daten aus der Datenbank hat, damit Datastream diese Informationen in das Ziel streamen kann. Konfiguration des Logging-Modus Datastream kontrolliert, dass der Logging-Modus für die Oracle-Datenbank auf ARCHIVELOG gesetzt ist. Zusätzliche Logging-Konfiguration Datastream kontrolliert, dass das zusätzliche Logging für die Datenbanktabellen aktiviert ist, die von der Quelle in das Ziel gestreamt werden. Konfiguration der Archivlogdateien Datastream kontrolliert, dass das Archiv-Logging in der Quelle konfiguriert ist und dass Archivlogdateien vorhanden sind. Cloud Storage-Berechtigungen (für Cloud Storage-Ziele) Datastream kontrolliert, dass es die erforderlichen Berechtigungen zum Schreiben in den Ziel-Bucket in Cloud Storage hat. Wenn Ihre Quelldatenbank MySQL ist, führt Datastream die folgenden Prüfungen durch:
Häkchen Beschreibung Gültigkeit der Objektliste Datastream kontrolliert, dass die Ausschlussliste nicht die Einschlussliste umfasst. Verbindung für Weiterleitungs-SSH-Tunnel Datastream kontrolliert, dass es über einen Weiterleitungs-SSH-Tunnel eine Verbindung zu einem Bastion Host herstellen kann. Verbindung zur MySQL-Datenbank Datastream kontrolliert, dass es eine Verbindung zur MySQL-Quelldatenbank herstellen kann. Binäres Logging aktiviert Datastream kontrolliert, dass die Binärlogdateien ordnungsgemäß konfiguriert sind und dass Logdateien vorhanden sind. Konfiguration des Binärlogformats Datastream kontrolliert, dass das Binärlogformat der MySQL-Datenbank auf ROW
gesetzt ist.Replikationsberechtigungen Datastream kontrolliert, dass es berechtigt ist, eine MySQL-Datenbank zu replizieren. Cloud Storage-Berechtigungen (für Cloud Storage-Ziele) Datastream kontrolliert, dass es die erforderlichen Berechtigungen zum Schreiben in den Ziel-Bucket in Cloud Storage hat. Wenn Ihre Quelldatenbank PostgreSQL ist, führt Datastream die folgenden Prüfungen durch:
Häkchen Beschreibung Verbindung zur PostgreSQL-Datenbank Datastream überprüft, ob eine Verbindung zur PostgreSQL-Quelldatenbank hergestellt werden kann. Logische Decodierung ist aktiviert Datastream prüft, ob der Parameter wal_level
der PostgreSQL-Datenbank auflogical
festgelegt ist.Konfiguration des Replikationsslots Datastream prüft, ob der PostgreSQL-Replikationsslot vorhanden und aktiv ist, ob Datastream die erforderlichen Berechtigungen für den Zugriff auf ihn hat und ob er richtig konfiguriert ist. Publikationskonfiguration Datastream überprüft, ob die Publikation vorhanden ist und ob die Tabellen, die für den Stream zu replizieren sind, in der Publikation enthalten sind. Backfill-Berechtigungen Datastream überprüft, ob Tabellen, die für das Backfill von Verlaufsdaten erforderlich sind, vorhanden sind und die erforderlichen Berechtigungen zum Lesen dieser Tabellen haben. Wenn Ihre Quelldatenbank SQL Server ist, führt Datastream die folgenden Prüfungen durch:
Häkchen Beschreibung SQL Server-Edition Datastream prüft, ob die SQL Server-Quelldatenbankversion unterstützt wird. Informationen zu unterstützten Versionen finden Sie unter Versionen. SQL Server-Nutzerberechtigungen Datastream prüft, ob der Nutzer die erforderlichen Berechtigungen für den Zugriff auf die SQL-Server-Quelldatenbank hat. SQL Server-CDC ist aktiviert Datastream prüft, ob CDC für die Datenbank und alle im Stream enthaltenen Tabellen aktiviert ist. SQL Server-Datenbankvalidierungen Datastream prüft, ob die Quelldatenbank ordnungsgemäß konfiguriert ist, ob alle Replikationsanforderungen erfüllt sind und ob die Spalten keine nicht unterstützten Datentypen enthalten. Cloud Storage- oder BigQuery-Berechtigungen Datastream überprüft, ob der Nutzer die erforderlichen Berechtigungen zum Schreiben in das Ziel hat.
Nachdem alle Validierungsprüfungen erfolgreich waren, klicken Sie auf ERSTELLEN UND STARTEN, um den Stream zu erstellen und sofort zu starten, oder auf ERSTELLEN, um den Stream zu erstellen, ohne ihn sofort zu starten.
Wenn Sie den Stream jetzt nicht starten, können Sie ihn über die Seite Streams starten, indem Sie auf STARTEN klicken.
Nachdem Sie einen Stream erstellt haben, können Sie allgemeine und detaillierte Informationen zu diesem Stream aufrufen.
Nächste Schritte
- Weitere Informationen zu Streams findest du unter Stream-Lebenszyklus.
- Informationen zum Ausführen eines Streams finden Sie unter Stream ausführen.
- Informationen zum Ändern von Streams finden Sie unter Stream ändern.
- Informationen zum Wiederherstellen eines Streams finden Sie unter Streams wiederherstellen.