Stream erstellen

Überblick

In diesem Abschnitt erfahren Sie, wie Sie einen Stream erstellen. Datastream verwendet diesen Stream, um Daten aus einer Oracle-, MySQL-, SQL Server- (Vorschau)- oder PostgreSQL-Quelldatenbank in BigQuery oder Cloud Storage zu übertragen.

Das Erstellen eines Streams umfasst:

  • Einstellungen für den Stream festlegen.
  • Wählen Sie das Verbindungsprofil aus, das Sie für die Oracle-, MySQL-, SQL Server- (Vorschau) oder PostgreSQL-Datenbank (Quellverbindungsprofil) erstellt haben, oder erstellen Sie ein Quellverbindungsprofil, falls Sie noch keines erstellt haben.
  • Informationen zur Quelldatenbank für den Stream konfigurieren, indem Sie die Tabellen und Schemas in der Quelldatenbank angeben, die Datastream:
    • In das Ziel übertragen kann.
    • Nicht in das Ziel übertragen darf.
  • Festlegen, ob Datastream Verlaufsdaten per Backfill auffüllt, laufende Änderungen in das Ziel streamt oder nur Änderungen an den Daten streamt. Bei Aktivierung des Verlaufsdaten-Backfills können Sie optional Schemas und Tabellen in der Quelldatenbank angeben, die Datastream nicht per Backfill im Ziel auffüllen soll.

  • Wählen Sie das Verbindungsprofil aus, das Sie für BigQuery oder Cloud Storage (Zielverbindungsprofil) erstellt haben, oder erstellen Sie ein Zielverbindungsprofil, falls Sie noch keines erstellt haben.

  • Informationen zum Ziel für den Stream konfigurieren Zu diesen Daten gehören:

    • Für BigQuery:
      • Die Datasets, in die Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank replizieren wird.
    • Für Cloud Storage:
      • Der Ordner des Ziel-Buckets, in den Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank überträgt.
  • Überprüfung des Streams, um sicherzustellen, dass er erfolgreich ausgeführt wird. Dabei wird Folgendes geprüft:

    • Ob die Quelle ordnungsgemäß konfiguriert ist, damit Datastream Daten von ihr streamen kann.
    • Ob er sowohl mit der Quelle als auch mit dem Ziel verbunden werden kann.

    • Die End-to-End-Konfiguration des Streams.

Einstellungen für den Stream festlegen

  1. Rufen Sie in der Google Cloud Console die Seite Streams auf.

    Zur Seite "Streams"

  2. Klicken Sie auf STREAM ERSTELLEN.

  3. Verwenden Sie die folgende Tabelle, um die Felder im Bereich Streamdetails definieren der Seite Stream erstellen auszufüllen:

    FeldBeschreibung
    Name des StreamsGeben Sie den Anzeigenamen des Streams ein.
    Stream-IDDatastream füllt dieses Feld automatisch basierend auf dem von Ihnen eingegebenen Stream-Namen aus. Sie können die automatisch generierte ID beibehalten oder ändern.
    RegionWählen Sie die Region aus, in der der Stream gespeichert ist. Streams werden wie alle Ressourcen in einer Region gespeichert. Die Auswahl der Region hat keinen Einfluss darauf, ob Ihr Stream eine Verbindung zur Quelldatenbank oder zum Ziel herstellen kann. Sie kann sich jedoch auf die Verfügbarkeit auswirken, wenn es in der Region zu Ausfallzeiten kommt.
    Quelltyp

    Wählen Sie den Profiltyp aus, den Sie beim Erstellen eines Verbindungsprofils für eine Oracle-, MySQL-, SQL Server- (Vorschau) oder PostgreSQL erstellt haben. Wenn Sie noch kein Verbindungsprofil für die Quelldatenbank erstellt haben, können Sie jetzt eins erstellen.

    Zieltyp

    Wählen Sie den Profiltyp aus, den Sie beim Erstellen eines Verbindungsprofils für ein BigQuery- oder Cloud Storage-Ziel angegeben haben. Wenn Sie noch kein Verbindungsprofil für das Ziel erstellt haben, können Sie jetzt eins erstellen.

    Verschlüsselung

    Standardmäßig werden Ihre Daten mit einem von Google Cloud verwalteten Schlüssel verschlüsselt. Wenn Sie Ihre Verschlüsselung selbst verwalten möchten, können Sie einen vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK) verwenden:

    1. Klicken Sie das Kästchen CMEK verwenden an.
    2. Wählen Sie im Drop-down-Menü CMEK auswählen Ihren CMEK aus.

    Wenn Sie Ihren Schlüssel nicht sehen, klicken Sie auf ENTER KEY RESOURCE NAME, um den Ressourcennamen des Schlüssels anzugeben, den Sie verwenden möchten. Sie können beispielsweise projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key in das Feld Name der Schlüsselressource eingeben und dann auf SPEICHERN klicken.

  4. Optional können Sie Labels verwenden, um Ihre Datastream-Ressourcen zu organisieren.

    1. Zum Erstellen eines Labels klicken Sie auf LABEL HINZUFÜGEN und geben dann das Schlüssel/Wert-Paar für das Label ein.
    2. Zum Entfernen des Labels klicken Sie auf das Papierkorbsymbol rechts neben der Zeile, die das Label enthält.
  5. Fügen Sie optional Benachrichtigungsrichtlinien für Ihren Stream hinzu. In Benachrichtigungsrichtlinien wird festgelegt, wann und wie Sie über Streamfehler benachrichtigt werden möchten.

    1. Klicken Sie zum Erstellen einer Benachrichtigungsrichtlinie auf Benachrichtigungsrichtlinie hinzufügen.
    2. Die Seite Benachrichtigungsrichtlinie erstellen wird in Cloud Monitoring angezeigt. Auf dieser Seite definieren Sie die Benachrichtigungsrichtlinie für den Fall, dass der Stream fehlschlägt.

    Weitere Informationen zu Benachrichtigungsrichtlinien finden Sie unter Messwertbasierte Benachrichtigungsrichtlinien verwalten.

  6. Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um zu sehen, wie die Umgebung für einen Stream vorbereitet werden muss. Zu diesen Voraussetzungen kann gehören, wie Sie die Quelldatenbank konfigurieren und mit dem Ziel verbinden. Es ist am besten, diese Voraussetzungen in diesem Schritt abzuschließen. Sie können sie aber auch jederzeit abschließen, bevor Sie den Stream testen oder starten. Weitere Informationen zu diesen Voraussetzungen finden Sie unter Quellen.

  7. Klicken Sie auf WEITER. Der Bereich Verbindungsprofil definieren der Seite Stream erstellen wird für Ihren Quelldatenbanktyp angezeigt.

Informationen zum Quellverbindungsprofil angeben

  1. Wenn Sie ein Quellverbindungsprofil für Oracle, MySQL, SQL Server (Vorschau) oder MySQL erstellt haben, wählen Sie es aus der Liste der Verbindungsprofile aus.

    Wenn Sie noch kein Quellverbindungsprofil erstellt haben, klicken Sie unten in der Drop-down-Liste auf VERBINDUNGSPROFIL ERSTELLEN und führen Sie dann die gleichen Schritte wie unter Verbindungsprofile erstellen aus.

  2. Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und Datastream miteinander kommunizieren können.

    Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Weitere Informationen zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.

  3. Klicken Sie auf WEITER. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zur Quelldatenbank für den Stream konfigurieren

PostgreSQL-Quelldatenbank konfigurieren

Wenn Sie PostgreSQL als Quelldatenbank ausgewählt haben, müssen Sie die Replikationsattribute definieren.

  1. Geben Sie im Bereich Replikationseigenschaften die folgenden Attribute an:
    1. Geben Sie im Feld Name des Replikationsslots den Namen des Slots ein, den Sie speziell für diesen Stream erstellt haben. Der Datenbankserver verwendet diesen Slot, um Ereignisse an Datastream zu senden.
    2. Geben Sie im Feld Name der Publikation den Namen der Publikation ein, die Sie in der Datenbank erstellt haben. Eine Publikation ist eine Gruppe aller Tabellen, in denen Sie Änderungen aus diesem Stream replizieren möchten.
  2. Klicken Sie auf Weiter. Führen Sie die im Abschnitt Quelldatenbanken konfigurieren unten beschriebenen Schritte aus.

Quelldatenbanken konfigurieren

  1. Geben Sie im Abschnitt Einzuschließende Objekte auswählen im Drop-down-Menü Einzuschließende Objekte die Tabellen und Schemas in der Quelldatenbank an, die Datastream in das Ziel übertragen kann.

    1. Wenn Datastream alle Tabellen und Schemas übertragen soll, wählen Sie Alle Tabellen aus allen Schemas aus.
    2. Wenn Datastream nur bestimmte Tabellen und Schemas übertragen soll, wählen Sie Bestimmte Schemas und Tabellen aus und klicken Sie dann die Kästchen für die Schemas und Tabellen an, die Datastream abrufen soll.

    3. Wenn Sie eine Definition der Tabellen und Schemas in Textform angeben möchten, die Datastream übertragen soll, wählen Sie Benutzerdefiniert aus und geben dann im Feld Kriterien für Objektabgleich die Schemas und Tabellen ein, die Datastream abrufen soll.

      Wenn Ihre Datenbank eine große Anzahl von Tabellen und Schemas enthält, empfehlen wir die Verwendung der Option Benutzerdefiniert, da einige Tabellen und Schemas möglicherweise nicht in der Liste der abzurufenden Objekte enthalten sind.

  2. Maximieren Sie optional den Knoten Auszuschließende Objekte auswählen. Geben Sie im Feld Auszuschließende Objekte die Tabellen und Schemas in der Quelldatenbank ein, deren Abruf durch Datastream eingeschränkt werden soll. Die Liste Auszuschließende Objekte hat Vorrang vor der Liste Einzuschließende Objekte. Wenn ein Objekt die Kriterien in der Ein- und Ausschlussliste erfüllt, wird es aus dem Stream ausgeschlossen.

  3. Maximieren Sie optional den Knoten Backfill-Modus für Verlaufsdaten auswählen und treffen Sie eine der folgenden Auswahlen:
    1. Wählen Sie die Option Automatisch aus, um alle vorhandenen Daten sowie Änderungen an den Daten von der Quelle in das Ziel zu streamen.

      Geben Sie im Feld Vom automatischen Backfill ausgeschlossene Objekte die Tabellen und Schemas in der Quelldatenbank ein, für die Sie den Backfill von Datastream in das Ziel einschränken möchten.

    2. Wählen Sie die Option Manuell aus, um nur Änderungen an den Daten in das Ziel zu streamen.
  4. Klicken Sie auf WEITER. Der Bereich Verbindungsprofil definieren auf der Seite Stream erstellen wird für den Zieltyp angezeigt.

Zielverbindungsprofil auswählen

  1. Wenn Sie ein Zielverbindungsprofil erstellt haben, wählen Sie es aus der Liste der Verbindungsprofile aus.

    Wenn Sie noch kein Zielverbindungsprofil erstellt haben, klicken Sie unten in der Drop-down-Liste auf VERBINDUNGSPROFIL ERSTELLEN und führen Sie dann die gleichen Schritte wie unter Verbindungsprofile erstellen aus.

  2. Klicken Sie auf WEITER. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zum Ziel für den Stream konfigurieren

BigQuery-Ziel

  1. Geben Sie unter Verbindung von Datastream zu BigQuery konfigurieren an, wie Datastream in ein BigQuery-Dataset streamen soll. Wählen Sie eine der folgenden Optionen aus:

    • Dataset für jedes Schema: Datastream erstellt für jedes Quellschema ein BigQuery-Dataset basierend auf dem Schemanamen.

      Wenn Sie diese Option auswählen, erstellt Datastream für jedes Schema in der Quelldatenbank ein Dataset im Projekt, das den Stream enthält.

      Gehen Sie außerdem bei der Auswahl der Option Dataset für jedes Schema so vor:

      1. Geben Sie im Feld Speicherort die Region ein, in der das neue Dataset erstellt werden soll.
      2. Optional: Definieren Sie im Feld Präfix ein Präfix für das vom Stream erstellte Dataset. Der von Ihnen angegebene String wird dem Namen des Quellschemas hinzugefügt. Wenn das Schema beispielsweise <mySchema> heißt und Sie das Dataset-Präfix als <myPrefix> definieren, erstellt Datastream ein Dataset mit dem Namen <myPrefix><mySchema>.
      3. Geben Sie an, wie Ihre Daten in BigQuery verschlüsselt werden sollen, indem Sie einen von Google oder vom Kunden verwalteten Verschlüsselungsschlüssel auswählen.
    • Einzelnes Dataset für alle Schemas: Datastream erstellt alle Tabellen im von Ihnen angegebenen BigQuery-Dataset. Jede von Datastream erstellte Tabelle wird mit einer Kombination aus dem Namen des Quellschemas und dem Tabellennamen benannt, die durch einen Unterstrich getrennt sind (z. B. <mySchemaName>_<myTableName>).

  2. Limit für Datenveralterung angeben Wählen Sie ein Limit aus, um ein Gleichgewicht zwischen Leistung und Kosten von BigQuery-Abfragen und der Datenaktualität herzustellen. Je nach Limit für die Veralterung wendet BigQuery die Änderungen laufend im Hintergrund oder bei der Abfrageausführung an. Ein geringerer Wert (jüngere Daten) kann die BigQuery-Verarbeitungskosten erhöhen.

  3. Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Cloud Storage-Ziel

  1. Geben Sie optional in das Feld Stream-Pfadpräfix den Ordner des Ziel-Buckets ein, in den Datastream Schemas, Tabellen und Daten aus einer Quelldatenbank übertragen soll.

    Wenn Sie beispielsweise möchten, dass Datastream Daten aus der Quelldatenbank in den Ordner /root/example im Ziel-Bucket überträgt, geben Sie /root/example in das Feld Stream-Pfadpräfix ein.

  2. Wählen Sie im Feld Ausgabeformat das Format der in Cloud Storage geschriebenen Dateien aus.

  3. Optional. Wenn Sie das JSON-Format auswählen, werden zwei Kästchen angezeigt:

    1. Fügen Sie eine UnifiedTypes-Schemadatei in den Dateipfad ein: Wenn Sie dieses Kästchen anklicken, schreibt Datastream zwei Dateien in Cloud Storage: eine JSON-Datendatei und eine Avro-Schemadatei. Die Schemadatei hat denselben Namen wie die Datendatei, aber mit der Erweiterung .schema. Wenn Sie dieses Kästchen nicht anklicken, schreibt Datastream nur die JSON-Datendatei in Cloud Storage. Dieses Kästchen ist standardmäßig nicht aktiviert.
    2. gzip-Komprimierung aktivieren: Wenn Sie dieses Kästchen anklicken, verwendet Datastream das Dienstprogramm gzip, um die Dateien zu komprimieren, die Datastream in Cloud Storage schreibt. Wenn Sie dieses Kästchen nicht anklicken, schreibt Datastream die Dateien in Cloud Storage, ohne sie zu komprimieren. Dieses Kontrollkästchen ist standardmäßig aktiviert.
  4. Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Stream erstellen

  1. Prüfen Sie die Details des Streams sowie die Quell- und Zielverbindungsprofile, die der Stream zum Übertragen von Daten aus einer Quelldatenbank in ein Ziel verwendet.
  2. Klicken Sie auf VALIDIERUNG AUSFÜHREN, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.

    1. Wenn Ihre Quelldatenbank Oracle ist, führt Datastream die folgenden Prüfungen durch:

      HäkchenBeschreibung
      Gültigkeit der ObjektlisteDatastream kontrolliert, dass die Ausschlussliste nicht die Einschlussliste umfasst.
      Verbindung für Weiterleitungs-SSH-TunnelDatastream kontrolliert, dass es über einen Weiterleitungs-SSH-Tunnel eine Verbindung zu einem Bastion Host herstellen kann.
      Verbindung zur Oracle-DatenbankDatastream kontrolliert, dass eine Verbindung zur Oracle-Quelldatenbank hergestellt werden kann.
      Oracle-NutzerberechtigungenDatastream kontrolliert, dass der Nutzer, der zum Herstellen einer Verbindung zur Quelldatenbank verwendet wird, alle erforderlichen Berechtigungen zum Abrufen von Schemas, Tabellen und Daten aus der Datenbank hat, damit Datastream diese Informationen in das Ziel streamen kann.
      Konfiguration des Logging-ModusDatastream kontrolliert, dass der Logging-Modus für die Oracle-Datenbank auf ARCHIVELOG gesetzt ist.
      Zusätzliche Logging-KonfigurationDatastream kontrolliert, dass das zusätzliche Logging für die Datenbanktabellen aktiviert ist, die von der Quelle in das Ziel gestreamt werden.
      Konfiguration der ArchivlogdateienDatastream kontrolliert, dass das Archiv-Logging in der Quelle konfiguriert ist und dass Archivlogdateien vorhanden sind.
      Cloud Storage-Berechtigungen (für Cloud Storage-Ziele) Datastream kontrolliert, dass es die erforderlichen Berechtigungen zum Schreiben in den Ziel-Bucket in Cloud Storage hat.
    2. Wenn Ihre Quelldatenbank MySQL ist, führt Datastream die folgenden Prüfungen durch:

      HäkchenBeschreibung
      Gültigkeit der ObjektlisteDatastream kontrolliert, dass die Ausschlussliste nicht die Einschlussliste umfasst.
      Verbindung für Weiterleitungs-SSH-TunnelDatastream kontrolliert, dass es über einen Weiterleitungs-SSH-Tunnel eine Verbindung zu einem Bastion Host herstellen kann.
      Verbindung zur MySQL-DatenbankDatastream kontrolliert, dass es eine Verbindung zur MySQL-Quelldatenbank herstellen kann.
      Binäres Logging aktiviertDatastream kontrolliert, dass die Binärlogdateien ordnungsgemäß konfiguriert sind und dass Logdateien vorhanden sind.
      Konfiguration des BinärlogformatsDatastream kontrolliert, dass das Binärlogformat der MySQL-Datenbank auf ROW gesetzt ist.
      ReplikationsberechtigungenDatastream kontrolliert, dass es berechtigt ist, eine MySQL-Datenbank zu replizieren.
      Cloud Storage-Berechtigungen (für Cloud Storage-Ziele)Datastream kontrolliert, dass es die erforderlichen Berechtigungen zum Schreiben in den Ziel-Bucket in Cloud Storage hat.
    3. Wenn Ihre Quelldatenbank PostgreSQL ist, führt Datastream die folgenden Prüfungen durch:

      HäkchenBeschreibung
      Verbindung zur PostgreSQL-DatenbankDatastream überprüft, ob eine Verbindung zur PostgreSQL-Quelldatenbank hergestellt werden kann.
      Logische Decodierung ist aktiviertDatastream überprüft, ob der Parameter wal_level der PostgreSQL-Datenbank auf logical festgelegt ist.
      Konfiguration des ReplikationsslotsDatastream prüft, ob der PostgreSQL-Replikationsslot vorhanden und aktiv ist, ob Datastream die erforderlichen Berechtigungen für den Zugriff hat und ob er richtig konfiguriert ist.
      PublikationskonfigurationDatastream überprüft, ob die Publikation existiert und ob die Tabellen, die für den Stream repliziert werden sollen, in der Publikation enthalten sind.
      Backfill-BerechtigungenDatastream überprüft, ob Tabellen vorhanden sind, die für den Backfill von Verlaufsdaten erforderlich sind, und ob es die erforderlichen Leseberechtigungen hat.
    4. Wenn Ihre Quelldatenbank SQL Server ist (Vorschau), führt Datastream die folgenden Prüfungen durch:

      HäkchenBeschreibung
      SQL Server-EditionDatastream überprüft, ob die SQL Server-Quelldatenbankversion unterstützt wird. Informationen zu unterstützten Versionen finden Sie unter Versionen.
      SQL Server-NutzerberechtigungenDatastream überprüft, ob der Nutzer die erforderlichen Berechtigungen für den Zugriff auf die SQL Server-Quelldatenbank hat.
      SQL Server-CDC ist aktiviertDatastream überprüft, ob CDC für die Datenbank und alle im Stream enthaltenen Tabellen aktiviert ist.
      SQL Server-DatenbankvalidierungenDatastream prüft, ob die Quelldatenbank richtig konfiguriert ist, ob alle Replikationsanforderungen erfüllt sind und ob in den Spalten keine nicht unterstützten Datentypen vorhanden sind.
      Cloud Storage- oder BigQuery-BerechtigungenDatastream überprüft, ob der Nutzer die erforderlichen Berechtigungen zum Schreiben in das Ziel hat.
  3. Nachdem alle Validierungsprüfungen erfolgreich waren, klicken Sie auf ERSTELLEN UND STARTEN, um den Stream zu erstellen und sofort zu starten, oder auf ERSTELLEN, um den Stream zu erstellen, ohne ihn sofort zu starten.

    Wenn Sie den Stream jetzt nicht starten, können Sie ihn über die Seite Streams starten, indem Sie auf STARTEN klicken.

Nachdem Sie einen Stream erstellt haben, können Sie allgemeine und detaillierte Informationen zu diesem Stream aufrufen.