Stream erstellen

Überblick

In diesem Abschnitt erfahren Sie, wie Sie einen Stream erstellen. Datastream verwendet diesen Stream, um Daten aus einer Oracle-, MySQL-, SQL Server- (Vorabversion) oder PostgreSQL-Quelldatenbank in BigQuery oder Cloud Storage zu übertragen.

Das Erstellen eines Streams umfasst:

  • Einstellungen für den Stream festlegen.
  • Wählen Sie das Verbindungsprofil aus, das Sie für die Oracle-, MySQL-, SQL Server- (Vorabversion) oder PostgreSQL-Datenbank (das Quellverbindungsprofil) erstellt haben, oder erstellen Sie ein Quellverbindungsprofil, falls Sie noch keines erstellt haben.
  • Informationen zur Quelldatenbank für den Stream konfigurieren, indem Sie die Tabellen und Schemas in der Quelldatenbank angeben, die Datastream:
    • In das Ziel übertragen kann.
    • Nicht in das Ziel übertragen darf.
  • Festlegen, ob Datastream Verlaufsdaten per Backfill auffüllt, laufende Änderungen in das Ziel streamt oder nur Änderungen an den Daten streamt. Bei Aktivierung des Verlaufsdaten-Backfills können Sie optional Schemas und Tabellen in der Quelldatenbank angeben, die Datastream nicht per Backfill im Ziel auffüllen soll.

  • Wählen Sie das Verbindungsprofil aus, das Sie für BigQuery oder Cloud Storage (das Zielverbindungsprofil) erstellt haben, oder erstellen Sie ein Zielverbindungsprofil, falls Sie noch keines erstellt haben.

  • Hier werden Informationen zum Ziel des Streams konfiguriert. Zu diesen Daten gehören:

    • Für BigQuery:
      • Die Datasets, in die Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank repliziert.
    • Für Cloud Storage:
      • Der Ordner des Ziel-Buckets, in den Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank überträgt.
  • Überprüfung des Streams, um sicherzustellen, dass er erfolgreich ausgeführt wird. Dabei wird Folgendes geprüft:

    • Ob die Quelle ordnungsgemäß konfiguriert ist, damit Datastream Daten von ihr streamen kann.
    • Ob er sowohl mit der Quelle als auch mit dem Ziel verbunden werden kann.

    • Die End-to-End-Konfiguration des Streams.

Einstellungen für den Stream festlegen

  1. Rufen Sie in der Google Cloud Console die Seite Streams auf.

    Zur Seite "Streams"

  2. Klicken Sie auf STREAM ERSTELLEN.

  3. Verwenden Sie die folgende Tabelle, um die Felder im Bereich Streamdetails definieren der Seite Stream erstellen auszufüllen:

    FeldBeschreibung
    Name des StreamsGeben Sie den Anzeigenamen des Streams ein.
    Stream-IDDatastream füllt dieses Feld automatisch basierend auf dem von Ihnen eingegebenen Stream-Namen aus. Sie können die automatisch generierte ID beibehalten oder ändern.
    RegionWählen Sie die Region aus, in der der Stream gespeichert ist. Streams werden wie alle Ressourcen in einer Region gespeichert. Die Auswahl der Region hat keinen Einfluss darauf, ob Ihr Stream eine Verbindung zur Quelldatenbank oder zum Ziel herstellen kann. Sie kann sich jedoch auf die Verfügbarkeit auswirken, wenn in der Region Ausfallzeiten auftreten.
    Quelltyp

    Wählen Sie den Profiltyp aus, den Sie beim Erstellen eines Verbindungsprofils für eine Oracle-, MySQL-, SQL Server- (Vorschau) oder PostgreSQL angegeben haben. Wenn Sie noch kein Verbindungsprofil für die Quelldatenbank erstellt haben, können Sie jetzt eins erstellen.

    ZieltypWählen Sie den Profiltyp aus, den Sie beim Erstellen eines Verbindungsprofils für ein BigQuery- oder Cloud Storage-Ziel angegeben haben. Wenn Sie noch kein Verbindungsprofil für das Ziel erstellt haben, können Sie jetzt eins erstellen.
    Verschlüsselung

    Standardmäßig werden Ihre Daten mit einem von Google Cloud verwalteten Schlüssel verschlüsselt. Wenn Sie Ihre Verschlüsselung verwalten möchten, können Sie einen vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK) verwenden:

    1. Klicken Sie das Kästchen CMEK verwenden an.
    2. Wählen Sie im Drop-down-Menü CMEK auswählen Ihren CMEK aus.

    Wenn Ihr Schlüssel nicht angezeigt wird, klicken Sie auf ENTER KEY RESOURCE NAME (Schlüsselressourcenname eingeben), um den Ressourcennamen des Schlüssels anzugeben, den Sie verwenden möchten. Sie können beispielsweise projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key in das Feld Name der Schlüsselressource eingeben und dann auf SPEICHERN klicken.

  4. Optional können Sie Labels verwenden, um Ihre Datastream-Ressourcen zu organisieren.

    1. Zum Erstellen eines Labels klicken Sie auf LABEL HINZUFÜGEN und geben dann das Schlüssel/Wert-Paar für das Label ein.
    2. Zum Entfernen des Labels klicken Sie auf das Papierkorbsymbol rechts neben der Zeile, die das Label enthält.
  5. Fügen Sie optional Benachrichtigungsrichtlinien für den Stream hinzu. Mit Benachrichtigungsrichtlinien wird festgelegt, wann und wie Sie bei Streamfehlern benachrichtigt werden möchten.

    1. Klicken Sie auf Benachrichtigungsrichtlinie hinzufügen, um eine Benachrichtigungsrichtlinie zu erstellen.
    2. Die Seite Benachrichtigungsrichtlinie erstellen wird in Cloud Monitoring angezeigt. Auf dieser Seite definieren Sie die Benachrichtigungsrichtlinie für den Fall, dass der Stream fehlschlägt.

    Weitere Informationen zu Benachrichtigungsrichtlinien finden Sie unter Messwertbasierte Benachrichtigungsrichtlinien verwalten.

  6. Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um zu sehen, wie die Umgebung für einen Stream vorbereitet werden muss. Zu diesen Voraussetzungen kann gehören, wie die Quelldatenbank konfiguriert und mit dem Ziel verbunden wird. Es ist am besten, diese Voraussetzungen in diesem Schritt abzuschließen. Sie können sie aber auch jederzeit abschließen, bevor Sie den Stream testen oder starten. Weitere Informationen zu diesen Voraussetzungen finden Sie unter Quellen.

  7. Klicken Sie auf WEITER. Der Bereich Verbindungsprofil definieren der Seite Stream erstellen wird für Ihren Quelldatenbanktyp angezeigt.

Informationen zum Quellverbindungsprofil angeben

  1. Wenn Sie ein Quellverbindungsprofil für Oracle, MySQL, SQL Server (Vorabversion) oder PostgreSQL erstellt haben, wählen Sie es aus der Liste der Verbindungsprofile aus.

    Wenn Sie noch kein Quellverbindungsprofil erstellt haben, klicken Sie unten in der Drop-down-Liste auf VERBINDUNGSPROFIL ERSTELLEN und führen Sie dann die gleichen Schritte wie unter Verbindungsprofile erstellen aus.

  2. Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und Datastream miteinander kommunizieren können.

    Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Schritte zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.

  3. Klicken Sie auf WEITER. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zur Quelldatenbank für den Stream konfigurieren

PostgreSQL-Quelldatenbank konfigurieren

Wenn Sie PostgreSQL als Quelldatenbank ausgewählt haben, müssen Sie die zugehörigen Replikationsattribute definieren.

  1. Geben Sie im Abschnitt Replikationsattribute die folgenden Attribute an:
    1. Geben Sie im Feld Name des Replikationsslots den Namen des Slots ein, den Sie speziell für diesen Stream erstellt haben. Der Datenbankserver verwendet diesen Slot, um Ereignisse an Datastream zu senden.
    2. Geben Sie im Feld Name der Publikation den Namen der Publikation ein, die Sie in der Datenbank erstellt haben. Eine Publikation ist eine Gruppe aller Tabellen, in denen Sie Änderungen aus diesem Stream replizieren möchten.
  2. Führen Sie die im Abschnitt Quelldatenbanken konfigurieren beschriebenen Schritte aus.

SQL Server-Quelldatenbank konfigurieren

Wenn Sie SQL Server als Quelldatenbank ausgewählt haben, müssen Sie die CDC-Methode definieren.

  1. Wählen Sie im Drop-down-Menü CDC-Methode die CDC-Methode aus, die Ihrer Quelldatenbankkonfiguration entspricht:

    • Transaktionslogs: Wählen Sie diese Methode aus, um Änderungen direkt aus den Datenbanklogs zu verarbeiten. Diese Methode bietet die beste Leistung und ist effizienter, erfordert jedoch zusätzliche Konfigurationsschritte.
    • Änderungstabellen: Wählen Sie diese Methode aus, um Änderungen aus speziellen Änderungstabellen zu verarbeiten. Diese Methode ist einfacher zu konfigurieren und hat weniger Einschränkungen, unterstützt aber einen niedrigeren Durchsatz und führt zu einer höheren Belastung Ihrer Datenbank als die Transaktionslogmethode.

    Weitere Informationen zum Konfigurieren der SQL Server-Quelldatenbank finden Sie unter SQL Server-Quelldatenbank konfigurieren.

  2. Führen Sie die im Abschnitt Quelldatenbanken konfigurieren beschriebenen Schritte aus.

Quelldatenbanken konfigurieren

  1. Geben Sie im Abschnitt Einzuschließende Objekte auswählen im Drop-down-Menü Einzuschließende Objekte die Tabellen und Schemas in der Quelldatenbank an, die Datastream an das Ziel übertragen kann.

    1. Wenn Datastream alle Tabellen und Schemas übertragen soll, wählen Sie Alle Tabellen aus allen Schemas aus.
    2. Wenn Sie möchten, dass Datastream nur bestimmte Tabellen und Schemas übertragen soll, wählen Sie Bestimmte Schemas und Tabellen aus und klicken Sie dann die Kästchen für die Schemas und Tabellen an, die von Datastream abgerufen werden sollen.

    3. Wenn Sie eine Definition der Tabellen und Schemas geben möchten, die von Datastream übertragen werden sollen, wählen Sie Benutzerdefiniert aus. Geben Sie dann im Feld Kriterien für Objektabgleich die Schemas und Tabellen ein, die von Datastream abgerufen werden sollen.

      Wenn Ihre Datenbank eine große Anzahl von Tabellen und Schemas enthält, empfehlen wir die Verwendung der Option Benutzerdefiniert, da einige Tabellen und Schemas möglicherweise nicht in der Liste der abzurufenden Objekte enthalten sind.

  2. Maximieren Sie optional den Knoten Auszuschließende Objekte auswählen. Geben Sie im Feld Auszuschließende Objekte die Tabellen und Schemas in der Quelldatenbank ein, die von Datastream nicht abgerufen werden sollen. Die Liste Auszuschließende Objekte hat Vorrang vor der Liste Einzuschließende Objekte. Wenn ein Objekt die Kriterien in den Listen zum Ein- und Ausschließen erfüllt, wird es aus dem Stream ausgeschlossen.

  3. Maximieren Sie optional den Knoten Backfill-Modus für Verlaufsdaten auswählen und treffen Sie eine der folgenden Auswahlen:
    1. Wählen Sie die Option Automatisch aus, um alle vorhandenen Daten sowie Änderungen an den Daten von der Quelle in das Ziel zu streamen.

      Geben Sie im Feld Vom automatischen Backfill ausgeschlossene Objekte die Tabellen und Schemas in der Quelldatenbank ein, für die Sie den Backfill von Datastream in das Ziel einschränken möchten.

    2. Wählen Sie die Option Manuell aus, um nur Änderungen an den Daten in das Ziel zu streamen.
  4. Klicken Sie auf WEITER. Für den Zieltyp wird auf der Seite Stream erstellen der Bereich Verbindungsprofil definieren angezeigt.

Zielverbindungsprofil auswählen

  1. Wenn Sie ein Zielverbindungsprofil erstellt haben, wählen Sie es aus der Liste der Verbindungsprofile aus.

    Wenn Sie noch kein Zielverbindungsprofil erstellt haben, klicken Sie unten in der Drop-down-Liste auf VERBINDUNGSPROFIL ERSTELLEN und führen Sie dann die gleichen Schritte wie unter Verbindungsprofile erstellen aus.

  2. Klicken Sie auf WEITER. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zum Ziel für den Stream konfigurieren

BigQuery-Ziel

  1. Geben Sie unter Verbindung von Datastream zu BigQuery konfigurieren an, wie Datastream in ein BigQuery-Dataset gestreamt werden soll. Wählen Sie eine der folgenden Optionen aus:

    • Dataset für jedes Schema: Datastream erstellt basierend auf dem Schemanamen ein BigQuery-Dataset für jedes Quellschema.

      Wenn Sie diese Option auswählen, erstellt Datastream für jedes Schema in der Quelldatenbank ein Dataset im Projekt, das den Stream enthält.

      Wenn Sie die Option Dataset für jedes Schema auswählen, gilt außerdem Folgendes:

      1. Geben Sie im Feld Speicherort die Region ein, in der das neue Dataset erstellt werden soll.
      2. Optional: Definieren Sie im Feld Präfix ein Präfix für den Datensatz, der vom Stream erstellt wird. Der angegebene String wird dem Namen des Quellschemas hinzugefügt. Wenn das Schema beispielsweise <mySchema> heißt und Sie das Dataset-Präfix als <myPrefix> definieren, erstellt Datastream ein Dataset mit dem Namen <myPrefix><mySchema>.
      3. Geben Sie an, wie Ihre Daten in BigQuery verschlüsselt werden sollen. Wählen Sie dazu einen von Google oder vom Kunden verwalteten Verschlüsselungsschlüssel aus.
    • Einzelnes Dataset für alle Schemas: Datastream erstellt alle Tabellen im vorhandenen BigQuery-Dataset, das Sie angeben. Jede von Datastream erstellte Tabelle wird mit einer Kombination aus dem Namen des Quellschemas und dem Tabellennamen benannt, die durch einen Unterstrich getrennt sind (z. B. <mySchemaName>_<myTableName>).

  2. Geben Sie den Stream-Schreibmodus an. Wählen Sie den Schreibmodus aus, um festzulegen, wie Daten in BigQuery geschrieben und verarbeitet werden:

    • Zusammenführen: Wählen Sie diese Option aus, wenn Ihre Daten mit der Quelle synchronisiert werden sollen.
    • Nur anfügen: Wählen Sie diese Option aus, wenn Sie alle Verlaufsdaten für die Änderungsereignisse behalten möchten.
  3. Geben Sie das Limit für die Veralterung der Daten an. Diese Option ist nur verfügbar, wenn im vorherigen Schritt der Modus Zusammenführen ausgewählt wurde. Wählen Sie ein Limit aus, um ein Gleichgewicht zwischen Leistung und Kosten von BigQuery-Abfragen und der Datenaktualität herzustellen. Je nach Limit für die Veralterung wendet BigQuery die Änderungen laufend im Hintergrund oder bei der Abfrageausführung an. Ein geringerer Wert (jüngere Daten) kann die BigQuery-Verarbeitungskosten erhöhen.

  4. Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Cloud Storage-Ziel

  1. Geben Sie optional in das Feld Stream-Pfadpräfix den Ordner des Ziel-Buckets ein, in den Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank übertragen soll.

    Wenn Sie beispielsweise möchten, dass Datastream Daten aus der Quelldatenbank in den Ordner /root/example im Ziel-Bucket überträgt, geben Sie /root/example in das Feld Stream-Pfadpräfix ein.

  2. Wählen Sie im Feld Ausgabeformat das Format der in Cloud Storage geschriebenen Dateien aus.

  3. Optional. Wenn Sie das JSON-Format auswählen, werden zwei Kästchen angezeigt:

    1. „Unified Types-Schema“ in den Dateipfad einfügen: Wenn Sie dieses Kästchen anklicken, schreibt Datastream zwei Dateien in Cloud Storage: eine JSON-Datendatei und eine Avro-Schema-Datei. Die Schemadatei hat denselben Namen wie die Datendatei, aber mit der Erweiterung .schema. Wenn Sie dieses Kästchen nicht anklicken, schreibt Datastream nur die JSON-Datendatei in Cloud Storage. Dieses Kästchen ist standardmäßig nicht angeklickt.
    2. gzip-Komprimierung aktivieren: Wenn Sie dieses Kästchen anklicken, verwendet Datastream das Dienstprogramm gzip, um die Dateien zu komprimieren, die Datastream in Cloud Storage schreibt. Wenn Sie dieses Kästchen nicht anklicken, schreibt Datastream die Dateien in Cloud Storage, ohne sie zu komprimieren. Dieses Kästchen ist standardmäßig aktiviert.
  4. Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Stream erstellen

  1. Überprüfen Sie die Details zum Stream sowie die Quell- und Zielverbindungsprofile, die der Stream zum Übertragen von Daten aus einer Quelldatenbank in ein Ziel verwendet.
  2. Klicken Sie auf VALIDIERUNG AUSFÜHREN, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.

    1. Wenn Ihre Quelldatenbank Oracle ist, führt Datastream die folgenden Prüfungen durch:

      HäkchenBeschreibung
      Gültigkeit der ObjektlisteDatastream kontrolliert, dass die Ausschlussliste nicht die Einschlussliste umfasst.
      Verbindung für Weiterleitungs-SSH-TunnelDatastream kontrolliert, dass es über einen Weiterleitungs-SSH-Tunnel eine Verbindung zu einem Bastion Host herstellen kann.
      Verbindung zur Oracle-DatenbankDatastream kontrolliert, dass eine Verbindung zur Oracle-Quelldatenbank hergestellt werden kann.
      Oracle-NutzerberechtigungenDatastream kontrolliert, dass der Nutzer, der zum Herstellen einer Verbindung zur Quelldatenbank verwendet wird, alle erforderlichen Berechtigungen zum Abrufen von Schemas, Tabellen und Daten aus der Datenbank hat, damit Datastream diese Informationen in das Ziel streamen kann.
      Konfiguration des Logging-ModusDatastream kontrolliert, dass der Logging-Modus für die Oracle-Datenbank auf ARCHIVELOG gesetzt ist.
      Zusätzliche Logging-KonfigurationDatastream kontrolliert, dass das zusätzliche Logging für die Datenbanktabellen aktiviert ist, die von der Quelle in das Ziel gestreamt werden.
      Konfiguration der ArchivlogdateienDatastream kontrolliert, dass das Archiv-Logging in der Quelle konfiguriert ist und dass Archivlogdateien vorhanden sind.
      Cloud Storage-Berechtigungen (für Cloud Storage-Ziele) Datastream kontrolliert, dass es die erforderlichen Berechtigungen zum Schreiben in den Ziel-Bucket in Cloud Storage hat.
    2. Wenn Ihre Quelldatenbank MySQL ist, führt Datastream die folgenden Prüfungen durch:

      HäkchenBeschreibung
      Gültigkeit der ObjektlisteDatastream kontrolliert, dass die Ausschlussliste nicht die Einschlussliste umfasst.
      Verbindung für Weiterleitungs-SSH-TunnelDatastream kontrolliert, dass es über einen Weiterleitungs-SSH-Tunnel eine Verbindung zu einem Bastion Host herstellen kann.
      Verbindung zur MySQL-DatenbankDatastream kontrolliert, dass es eine Verbindung zur MySQL-Quelldatenbank herstellen kann.
      Binäres Logging aktiviertDatastream kontrolliert, dass die Binärlogdateien ordnungsgemäß konfiguriert sind und dass Logdateien vorhanden sind.
      Konfiguration des BinärlogformatsDatastream kontrolliert, dass das Binärlogformat der MySQL-Datenbank auf ROW gesetzt ist.
      ReplikationsberechtigungenDatastream kontrolliert, dass es berechtigt ist, eine MySQL-Datenbank zu replizieren.
      Cloud Storage-Berechtigungen (für Cloud Storage-Ziele)Datastream kontrolliert, dass es die erforderlichen Berechtigungen zum Schreiben in den Ziel-Bucket in Cloud Storage hat.
    3. Wenn Ihre Quelldatenbank PostgreSQL ist, führt Datastream die folgenden Prüfungen aus:

      HäkchenBeschreibung
      Verbindung zur PostgreSQL-DatenbankDatastream überprüft, ob eine Verbindung zur PostgreSQL-Quelldatenbank hergestellt werden kann.
      Logische Decodierung ist aktiviertDatastream überprüft, ob der wal_level-Parameter der PostgreSQL-Datenbank auf logical festgelegt ist.
      Konfiguration des ReplikationsslotsDatastream prüft, ob der PostgreSQL-Replikationsslot vorhanden und aktiv ist, ob Datastream die erforderlichen Berechtigungen für den Zugriff auf ihn hat und ob er richtig konfiguriert ist.
      PublikationskonfigurationDatastream prüft, ob die Publikation vorhanden ist und ob die Tabellen, die für den Stream replizieren sollen, in der Publikation enthalten sind.
      Backfill-BerechtigungenDatastream überprüft, ob Tabellen vorhanden sind, die für das Backfill von Verlaufsdaten erforderlich sind, und ob es die erforderlichen Berechtigungen zum Lesen hat.
    4. Wenn Sie als Quelldatenbank SQL Server verwenden (Vorschau), führt Datastream die folgenden Prüfungen durch:

      HäkchenBeschreibung
      SQL Server-EditionDatastream prüft, ob die SQL Server-Quelldatenbankversion unterstützt wird. Informationen zu unterstützten Versionen finden Sie unter Versionen.
      SQL Server-NutzerberechtigungenDatastream überprüft, ob der Nutzer die erforderlichen Berechtigungen für den Zugriff auf die SQL Server-Quelldatenbank hat.
      SQL Server-CDC ist aktiviertDatastream überprüft, ob CDC für die Datenbank und alle im Stream enthaltenen Tabellen aktiviert ist.
      SQL Server-DatenbankvalidierungenDatastream prüft, ob die Quelldatenbank ordnungsgemäß konfiguriert ist, ob alle Replikationsanforderungen erfüllt sind und ob die Spalten keine nicht unterstützten Datentypen enthalten.
      Cloud Storage- oder BigQuery-BerechtigungenDatastream überprüft, ob der Nutzer die erforderlichen Berechtigungen zum Schreiben in das Ziel hat.
  3. Wenn alle Validierungsprüfungen bestanden wurden, klicken Sie auf ERSTELLEN UND STARTEN, um den Stream zu erstellen und sofort zu starten. Klicken Sie auf ERSTELLEN, um den Stream zu erstellen, ohne ihn sofort zu starten.

    Wenn Sie den Stream jetzt nicht starten, können Sie ihn über die Seite Streams starten, indem Sie auf STARTEN klicken.

Nachdem Sie einen Stream erstellt haben, können Sie allgemeine und detaillierte Informationen zu diesem Stream aufrufen.