Datastream und Dataflow für Analysen implementieren

Übersicht

Für Unternehmen mit vielen isolierten Datenquellen kann der Zugriff auf Unternehmensdaten im gesamten Unternehmen, insbesondere in Echtzeit, schwierig sein. Dies führt zu einem eingeschränkten und langsamen Datenzugriff, der die Fähigkeit des Unternehmens zur Selbstbeobachtung verhindert.

Datastream bietet echtzeitnahen Zugriff auf Daten aus einer Vielzahl von lokalen und cloudbasierten Datenquellen, um den Zugriff auf Unternehmensdaten zu ermöglichen. Datastream bietet eine einfache Einrichtung und eine einheitliche Nutzungs-API, die den Zugriff auf die aktuellsten Unternehmensdaten im gesamten Unternehmen demokratisiert und integrierte Szenarien in Echtzeit ermöglicht.

Ein solches Szenario ist die Übertragung von Daten aus einer Quelldatenbank in einen Cloud-basierten Speicherdienst oder eine Messaging-Warteschlange und die Umwandlung dieser Daten in eine Form, die von anderen Anwendungen und Diensten wie Dataflow, die mit diesem Speicherdienst oder dieser Messaging-Warteschlange kommunizieren, gelesen werden kann. Dataflow ist ein Webdienst zum Erfassen und Verarbeiten von Daten in Google Cloud.

In dieser Anleitung erfahren Sie, wie Datastream nahtlos über Dataflow in optimierte Dataflow-Vorlagen eingebunden wird, um aktuelle materialisierte Ansichten in BigQuery für Analysen zu ermöglichen.

Sie lernen, wie Sie mit Datastream Änderungen (eingefügte, aktualisierte oder gelöschte Daten) aus einer MySQL-Quelldatenbank in einen Ordner in einem Cloud Storage-Bucket streamen können.

Sie konfigurieren den Cloud Storage-Bucket so, dass er Benachrichtigungen sendet, mit denen Dataflow über neue Dateien mit Datenänderungen informiert wird, die Datastream aus der Quelldatenbank streamt. Ein Dataflow-Job verarbeitet dann die Dateien und überträgt die Änderungen in BigQuery.

Flussdiagramm: Integrationsnutzer

Ziele

In dieser Anleitung lernen Sie, wie Sie:

  • Erstellen Sie einen Bucket in Cloud Storage. Dies ist der Ziel-Bucket, in den Datastream Schemas, Tabellen und Daten aus einer MySQL-Quelldatenbank streamt.
  • Pub/Sub-Benachrichtigungen für den Cloud Storage-Bucket aktivieren. Auf diese Weise konfigurieren Sie den Bucket so, dass er Benachrichtigungen sendet, mit denen Dataflow über neue Dateien informiert wird, die zur Verarbeitung bereitstehen. Diese Dateien enthalten Änderungen an Daten, die Datastream aus der Quelldatenbank in den Bucket streamt.
  • Erstellen Sie Datasets in BigQuery. BigQuery verwendet Datasets, um die von Dataflow erhaltenen Daten zu speichern. Diese Daten stellen die Änderungen in der Quelldatenbank dar, die Datastream in den Cloud Storage-Bucket streamt.
  • Erstellen und verwalten Sie Verbindungsprofile für eine Quelldatenbank und einen Ziel-Bucket in Cloud Storage. Ein Stream in Datastream verwendet die Informationen in den Verbindungsprofilen, um Daten aus der Quelldatenbank in den Bucket zu übertragen.
  • Stream erstellen und starten. Dieser Stream überträgt Daten, Schemas und Tabellen aus der Quelldatenbank in den Bucket.
  • Prüfen Sie, ob Datastream die mit einem Schema der Quelldatenbank verknüpften Daten und Tabellen in den Bucket überträgt.
  • Job in Dataflow erstellen. Nachdem Datastream Datenänderungen aus der Quelldatenbank in den Cloud Storage-Bucket gestreamt hat, werden Benachrichtigungen über neue Dateien mit den Änderungen an Dataflow gesendet. Der Dataflow-Job verarbeitet die Dateien und überträgt die Änderungen in BigQuery.
  • Dataflow muss die Dateien verarbeitet, die die mit diesen Daten verbundenen Änderungen enthalten, und die Änderungen in BigQuery übertragen. Deshalb haben Sie eine durchgängige Integration zwischen Datastream und BigQuery.
  • Bereinigen Sie die Ressourcen, die Sie in Datastream, Cloud Storage, Pub/Sub, Dataflow und BigQuery erstellt haben, damit sie keine kostenpflichtigen Kontingente verbrauchen.

Kosten

In dieser Anleitung werden die folgenden kostenpflichtigen Komponenten von Google Cloud verwendet:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweis

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Cloud-Projekt muss aktiviert sein. So prüfen Sie, ob die Abrechnung für ein Projekt aktiviert ist.

  6. Aktivieren Sie die Datastream API.

    API aktivieren

  7. Achten Sie darauf, dass Ihrem Nutzerkonto die Rolle „Datastream-Administrator“ zugewiesen ist.

    Zur IAM-Seite

  8. Sorgen Sie dafür, dass Sie eine Quelldatenbank haben, auf die Datastream zugreifen kann. In dieser Anleitung wird eine MySQL-Datenbank als Quelle verwendet.
  9. Achten Sie darauf, dass die Quelldatenbank Daten, Tabellen und Schemas enthält.
  10. Konfigurieren Sie die Quelldatenbank so, dass eingehende Verbindungen von öffentlichen IP-Adressen von Datastream zugelassen werden. Unter IP-Zulassungslisten und Regionen finden Sie eine Liste aller Datastream-Regionen und der zugehörigen öffentlichen IP-Adressen.
  11. Richten Sie Change Data Capture (CDC) für die Quelldatenbank ein. Weitere Informationen finden Sie unter MySQL-Quelldatenbank konfigurieren.
  12. Achten Sie darauf, dass Sie einen Cloud Storage-Ziel-Bucket konfiguriert haben, auf den Datastream zugreifen kann.
  13. Achten Sie darauf, dass alle Voraussetzungen erfüllt sind, um Pub/Sub-Benachrichtigungen für Cloud Storage zu aktivieren.

    In dieser Anleitung erstellen Sie einen Ziel-Bucket in Cloud Storage und aktivieren Pub/Sub-Benachrichtigungen für den Bucket. So kann Dataflow Benachrichtigungen über neue Dateien erhalten, die Datastream in den Bucket schreibt. Diese Dateien enthalten Änderungen an Daten, die Datastream aus der Quelldatenbank in den Bucket streamt.

Voraussetzungen

Datastream bietet eine Vielzahl von Quelloptionen, Zieloptionen und Netzwerkverbindungsmethoden.

Für diese Anleitung gehen wir davon aus, dass Sie eine eigenständige MySQL-Datenbank und einen Cloud Storage-Zieldienst verwenden. Für die Quelldatenbank sollten Sie Ihr Netzwerk so konfigurieren können, dass eine eingehende Firewallregel hinzugefügt wird. Die Quelldatenbank kann lokal oder bei einem Cloudanbieter bereitgestellt werden. Für das Cloud Storage-Ziel ist keine Verbindungskonfiguration erforderlich.

Da wir die Besonderheiten Ihrer Umgebung nicht kennen, können wir keine detaillierten Schritte in Bezug auf Ihre Netzwerkkonfiguration anbieten.

In dieser Anleitung wählen Sie als Methode zur Netzwerkverbindung die Option Zulassungsliste für IP-Adressen aus. IP-Zulassungslisten sind eine Sicherheitsfunktion, mit der der Zugriff auf die Daten in Ihrer Quelldatenbank häufig auf vertrauenswürdige Nutzer beschränkt und gesteuert wird. Sie können IP-Zulassungslisten verwenden, um Listen mit vertrauenswürdigen IP-Adressen oder IP-Bereichen zu erstellen, von denen Ihre Nutzer und andere Google Cloud-Dienste wie Datastream auf diese Daten zugreifen können. Damit Sie IP-Zulassungslisten verwenden können, müssen Sie die Quelldatenbank oder Firewall für eingehende Verbindungen von Datastream öffnen.

Zeit

Für diese Anleitung benötigen Sie etwa 45 Minuten.

Bucket in Cloud Storage erstellen

In diesem Abschnitt erstellen Sie einen Bucket in Cloud Storage. Dies ist der Ziel-Bucket, in den Datastream Schemas, Tabellen und Daten aus einer MySQL-Quelldatenbank streamt.

  1. Rufen Sie in der Google Cloud Console die Seite Browser für Cloud Storage auf.

    Zur Seite „Browser“

  2. Klicken Sie auf BUCKET ERSTELLEN. Die Seite Bucket erstellen wird angezeigt.

  3. Geben Sie im Textfeld des Bereichs Bucket benennen my-integration-bucket ein und klicken Sie dann auf WEITER.

  4. Übernehmen Sie für jede verbleibende Region der Seite die Standardeinstellungen. Klicken Sie dazu unten in jeder Region auf WEITER.

  5. Klicken Sie auf ERSTELLEN.

Pub/Sub-Benachrichtigungen für den Cloud Storage-Bucket aktivieren

In diesem Abschnitt aktivieren Sie Pub/Sub-Benachrichtigungen für den von Ihnen erstellten Cloud Storage-Bucket. Auf diese Weise konfigurieren Sie den Bucket so, dass Benachrichtigungen gesendet werden, mit denen Dataflow über neue Dateien informiert wird, die Datastream in den Bucket schreibt. Diese Dateien enthalten Änderungen an Daten, die Datastream aus einer MySQL-Quelldatenbank in den Bucket streamt.

  1. Rufen Sie den von Ihnen erstellten Cloud Storage-Bucket auf. Die Seite Bucket-Details wird angezeigt.

  2. Klicken Sie rechts oben auf der Seite auf Google Cloud Shell aktivieren.

  3. Geben Sie bei der Eingabeaufforderung folgenden Befehl ein:

    gsutil notification create -t my_integration_notifs -f json gs://my-integration-bucket

  4. Optional: Wenn das Fenster Cloud Shell autorisieren angezeigt wird, klicken Sie auf AUTORISIEREN.

  5. Prüfen Sie, ob die folgenden Codezeilen angezeigt werden:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/my-integration-bucket/notificationConfigs/1
    
  6. Rufen Sie in der Google Cloud Console die Seite Themen für Pub/Sub auf.

    Zur Seite „Themen“

  7. Klicken Sie auf das Thema my_integration_notifs, das Sie in diesem Verfahren erstellt haben.

  8. Scrollen Sie auf der Seite my_integration_notifs nach unten. Der Tab ABOS ist aktiv. Außerdem wird die Meldung Keine Abos vorhanden angezeigt.

  9. Klicken Sie auf ABO ERSTELLEN und wählen Sie aus dem Drop-down-Menü die Option Abo erstellen aus.

  10. Füllen Sie die Seite Abo zum Thema hinzufügen so aus:

    1. Geben Sie im Feld Abo-ID eine ID für das Abo ein. Geben Sie für diese Anleitung my_integration_notifs_sub in das Feld ein.
    2. Übernehmen Sie alle anderen Standardwerte auf der Seite.
    3. Klicken Sie auf ERSTELLEN.

Später in dieser Anleitung erstellen Sie einen Dataflow-Job. Bei der Erstellung dieses Auftrags weisen Sie Dataflow zu, Abonnent des Abos my_integration_notifs_sub zu sein. Auf diese Weise kann Dataflow Benachrichtigungen über neue Dateien erhalten, die Datastream in den Cloud Storage schreibt, die Dateien verarbeiten und die Datenänderungen in BigQuery übertragen.

Datasets in BigQuery erstellen

In diesem Abschnitt erstellen Sie Datasets in BigQuery. BigQuery verwendet Datasets, um die von Dataflow erhaltenen Daten zu speichern. Diese Daten stellen die Änderungen in der MySQL-Quelldatenbank dar, die Datastream in Ihren Cloud Storage-Bucket streamt.

  1. Wechseln Sie in der Google Cloud Console zur Seite SQL-Arbeitsbereich für BigQuery.

    Zur Seite „SQL-Arbeitsbereich“

  2. Klicken Sie im Bereich Explorer rechts neben dem Namen Ihres Google Cloud-Projekts auf die Schaltfläche Aktionen anzeigen. Diese Schaltfläche sieht wie eine vertikale Ellipse aus.

  3. Wählen Sie im Drop-down-Menü Dataset erstellen aus.

  4. Füllen Sie das Fenster Dataset erstellen so aus:

    1. Geben Sie im Feld Dataset-ID eine ID für das Dataset ein. Geben Sie für diese Anleitung My_integration_dataset_log in das Feld ein.
    2. Lassen Sie alle anderen Standardwerte im Fenster stehen.
    3. Klicken Sie auf Dataset erstellen.
  5. Klicken Sie im Bereich Explorer auf das Knotensymbol links neben dem Google Cloud-Projektnamen und prüfen Sie, ob das von Ihnen erstellte Dataset angezeigt wird.

  6. Führen Sie die Schritte in dieser Anleitung aus, um ein zweites Dataset zu erstellen: My_integration_dataset_final.

  7. Maximieren Sie den Knoten links neben jedem Dataset.

  8. Prüfen Sie, ob jedes Dataset leer ist.

Nachdem Datastream Datenänderungen aus der Quelldatenbank in Ihren Cloud Storage-Bucket gestreamt hat, verarbeitet ein Dataflow-Job die Dateien mit den Änderungen und überträgt sie in die BigQuery-Datasets.

Verbindungsprofile in Datastream erstellen

In diesem Abschnitt erstellen Sie in Datastream Verbindungsprofile für eine Quelldatenbank und ein Ziel. Bei der Erstellung der Verbindungsprofile wählen Sie MySQL als Profiltyp für Ihr Quellverbindungsprofil und Cloud Storage als Profiltyp für Ihr Zielverbindungsprofil.

Datastream verwendet die in den Verbindungsprofilen definierten Informationen, um eine Verbindung sowohl zur Quelle als auch zum Ziel herzustellen, damit Daten aus der Quelldatenbank in Ihren Ziel-Bucket in Cloud Storage gestreamt werden können.

Quellverbindungsprofil für MySQL-Datenbank erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf PROFIL ERSTELLEN.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp MySQL, da Sie ein Quellverbindungsprofil für die MySQL-Datenbank erstellen möchten.

  4. Geben Sie auf der Seite MySQL-Profil erstellen im Abschnitt Verbindungseinstellungen definieren die folgenden Informationen an:

    • Geben Sie My Source Connection Profile als Verbindungsprofilname für Ihre Quelldatenbank ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.

    • Geben Sie Verbindungsdetails ein:

      • Geben Sie im Feld Hostname oder IP-Adresse einen Hostnamen oder eine öffentliche IP-Adresse ein, mit dem Datastream eine Verbindung zur Quelldatenbank herstellen kann. Sie stellen eine öffentliche IP-Adresse bereit, da die IP-Zulassungsliste als Methode zur Netzwerkverbindung für diese Anleitung verwendet wird.
      • Geben Sie in das Feld Port die Portnummer ein, die für die Quelldatenbank reserviert ist. Bei einer MySQL-Datenbank ist der Standardport normalerweise 3306.
      • Geben Sie einen Nutzernamen und ein Passwort ein, um sich bei Ihrer Quelldatenbank zu authentifizieren.
  5. Klicken Sie im Abschnitt Verbindungseinstellungen definieren auf WEITER. Der Abschnitt Verbindung mit Ihrer Quelle sichern auf der Seite MySQL-Profil erstellen ist aktiv.

  6. Wählen Sie im Menü Verschlüsselungstyp die Option Keine aus. Weitere Informationen zu diesem Menü finden Sie unter Verbindungsprofil für MySQL-Datenbank erstellen.

  7. Klicken Sie im Abschnitt Verbindung mit der Quelle sichern auf WEITER. Der Abschnitt Konnektivitätsmethode definieren auf der Seite MySQL-Profil erstellen ist aktiv.

  8. Wählen Sie die Netzwerkmethode aus, die Sie zum Herstellen einer Verbindung zwischen der Quelldatenbank und Ihrem Ziel-Bucket in Cloud Storage verwenden möchten. Wählen Sie mithilfe dieser Drop-down-Liste für diese Anleitung als Netzwerkmethode die Option IP-Zulassungsliste aus.

  9. Konfigurieren Sie die Quelldatenbank so, dass eingehende Verbindungen von den öffentlichen Datastream-IP-Adressen zugelassen werden.

  10. Klicken Sie im Abschnitt Konnektivitätsmethode definieren auf WEITER. Der Abschnitt Verbindungsprofil testen auf der Seite MySQL-Profil erstellen ist aktiv.

  11. Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und der Datenstrom miteinander kommunizieren können.

  12. Prüfen Sie, ob der Status „Test bestanden“ angezeigt wird.

  13. Klicken Sie auf ERSTELLEN.

Zielverbindungsprofil für Cloud Storage erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf PROFIL ERSTELLEN.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp Cloud Storage, da Sie ein Zielverbindungsprofil für Cloud Storage erstellen möchten.

  4. Geben Sie auf der Seite Cloud Storage-Profil erstellen die folgenden Informationen an:

    • Geben Sie My Destination Connection Profile als Verbindungsprofilname für Ihren Cloud Storage-Zieldienst ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der das Verbindungsprofil gespeichert werden soll.
    • Klicken Sie im Bereich Verbindungsdetails auf DURCHSUCHEN, um den my-integration-bucket auszuwählen, den Sie zuvor in dieser Anleitung erstellt haben. Dies ist der Bucket, in den Datastream Daten aus der Quelldatenbank überträgt. Klicken Sie nach der Auswahl auf AUSWÄHLEN.

      Ihr Bucket wird im Feld Bucket-Name des Bereichs Verbindungsdetails angezeigt.

    • Geben Sie im Feld Pfadpräfix für das Verbindungsprofil ein Präfix für den Pfad an, der an den Bucket-Namen angehängt wird, wenn Datastream Daten an das Ziel streamt. Geben Sie für diese Anleitung /integration/tutorial in das Feld ein.

  5. Klicken Sie auf ERSTELLEN.

Nachdem Sie ein Quellverbindungsprofil für die MySQL-Datenbank und ein Zielverbindungsprofil für Cloud Storage erstellt haben, können Sie damit einen Stream erstellen.

Stream in Datastream erstellen

In diesem Abschnitt erstellen Sie einen Stream. Dieser Stream überträgt Daten aus einer MySQL-Quelldatenbank in einen Ziel-Bucket in Cloud Storage.

Das Erstellen eines Streams umfasst:

  • Einstellungen für den Stream festlegen.
  • Das Verbindungsprofil auswählen, das Sie für Ihre Quelldatenbank erstellt haben (das Quellverbindungsprofil). In dieser Anleitung ist das Mein Quellverbindungsprofil.
  • Informationen über die Quelldatenbank für den Stream konfigurieren, indem Tabellen und Schemata in der Quelldatenbank angegeben werden, die Datastream:
    • In das Ziel übertragen kann.
    • Nicht in das Ziel übertragen darf.
  • Festlegen, ob Datastream Verlaufsdaten per Backfill abgleicht, laufende Änderungen in das Ziel streamt oder nur Änderungen an den Daten streamt.
  • Das Verbindungsprofils auswählen, das Sie für Cloud Storage erstellt haben (das Ziel-Verbindungsprofil). In dieser Anleitung ist das Mein Zielverbindungsprofil.
  • Informationen zum Ziel-Bucket für den Stream konfigurieren. Zu diesen Daten gehören:
    • Der Ordner des Ziel-Buckets, in den Datastream Schemas, Tabellen und Daten aus der Quelldatenbank überträgt.
    • Das Ausgabeformat der in Cloud Storage geschriebenen Dateien. Datastream unterstützt derzeit zwei Ausgabeformate: Avro und JSON. In dieser Anleitung ist Avro das Dateiformat.

Einstellungen für den Stream festlegen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf STREAM ERSTELLEN.

  3. Geben Sie auf der Seite Stream erstellen im Bereich Streamdetails definieren die folgenden Informationen an:

    • Geben Sie My Stream als Streamname ein.
    • Behalten Sie die automatisch generierte Stream-ID bei.
    • Wählen Sie im Menü Region die Region aus, in der Sie Ihre Quell- und Zielverbindungsprofile erstellt haben.
    • Wählen Sie im Menü Quelltyp den Profiltyp MySQL aus.
    • Wählen Sie im Menü Zieltyp den Profiltyp Cloud Storage aus.
  4. Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um widerzuspiegeln, wie Ihre Umgebung für einen Stream vorbereitet sein muss. Diese Voraussetzungen können beispielsweise das Konfigurieren der Quelldatenbank und das Verbinden von Datastream mit dem Ziel-Bucket in Cloud Storage umfassen.

  5. Klicken Sie auf WEITER. Der Bereich MySQL-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.

Informationen zum Quellverbindungsprofil angeben

  1. Wählen Sie im Menü Quellverbindungsprofil Ihr Quellverbindungsprofil für die MySQL-Datenbank aus.

  2. Klicken Sie auf TESTEN, um zu prüfen, ob die Quelldatenbank und der Datenstrom miteinander kommunizieren können.

    Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.

  3. Klicken Sie auf WEITER. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zur Quelldatenbank für den Stream konfigurieren

  1. Verwenden Sie das Menü Aufzunehmende Objekte, um die Tabellen und Schemata in Ihrer Quelldatenbank anzugeben, die Datastream in einen Ordner im Ziel-Bucket in Cloud Storage übertragen kann.

    In dieser Anleitung soll Datastream alle Tabellen und Schemas übertragen. Wählen Sie daher im Menü die Option Alle Tabellen aus allen Schemas aus.

  2. Klicken Sie auf WEITER. Der Bereich Cloud Storage-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.

Zielverbindungsprofil auswählen

  1. Wählen Sie im Menü Zielverbindungsprofil Ihr Zielverbindungsprofil für Cloud Storage aus.

  2. Klicken Sie auf WEITER. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zum Ziel für den Stream konfigurieren

  1. Wählen Sie im Feld Ausgabeformat das Format der in Cloud Storage geschriebenen Dateien aus. In dieser Anleitung ist Avro das Dateiformat.

  2. Klicken Sie auf WEITER. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Stream erstellen

  1. Prüfen Sie Details zum Stream sowie die Quell- und Zielverbindungsprofile, die der Stream zur Übertragung von Daten von einer MySQL-Quelldatenbank zu einem Ziel-Bucket in Cloud Storage verwenden wird.

  2. Klicken Sie auf VALIDIERUNG AUSFÜHREN, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.

  3. Wenn alle Validierungsprüfungen erfolgreich waren, klicken Sie auf ERSTELLEN.

  4. Klicken Sie im Dialogfeld Stream erstellen? auf ERSTELLEN.

Nachdem Sie einen Stream erstellt haben, können Sie ihn starten.

Stream starten

Im vorherigen Abschnitt der Anleitung haben Sie einen Stream erstellt, aber nicht gestartet. Das können Sie jetzt tun.

In dieser Anleitung erstellen und starten Sie einen Stream separat, für den Fall, dass der Stream-Erstellungsprozess eine erhöhte Belastung Ihrer Quelldatenbank verursacht. Um diesen Ladevorgang auszugleichen, erstellen Sie den Stream, ohne ihn zu starten. Dann starten Sie den Stream, wenn die Last erreicht werden kann.

Durch das Starten des Streams kann Datastream Daten, Schemas und Tabellen von der Quelldatenbank zum Ziel übertragen.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie das Kästchen links neben dem Stream an, den Sie starten möchten. In dieser Anleitung ist dies Mein Stream.

  3. Klicken Sie auf START (Starten).

  4. Klicken Sie im Dialogfeld auf STARTEN. Der Status des Streams ändert sich von Not started in Starting in Running.

Nachdem Sie einen Stream gestartet haben, können Sie überprüfen, ob Datastream Daten aus der Quelldatenbank zum Ziel übertragen hat.

Stream prüfen

In diesem Abschnitt bestätigen Sie, dass Datastream die Daten aus allen Tabellen einer MySQL-Quelldatenbank in den Ordner /integration/tutorial Ihres Cloud Storage-Ziel-Buckets überträgt. In dieser Anleitung lautet der Name des Buckets my-integration-bucket.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf den von Ihnen erstellten Stream. In dieser Anleitung ist dies Mein Stream.

  3. Klicken Sie auf der Seite Stream-Details auf den Link, der unter dem Feld Zielschreibpfad angezeigt wird. Die Seite Bucket-Details von Cloud Storage wird in einem separaten Tab geöffnet.

  4. Prüfen Sie, ob die Ordner angezeigt werden, die Tabellen der Quelldatenbank darstellen.

  5. Klicken Sie auf einen der Tabellenordner und schlüsseln Sie die Daten auf, bis Sie Daten sehen, die mit der Tabelle verknüpft sind.

Dataflow-Job erstellen

In diesem Abschnitt erstellen Sie einen Job in Dataflow. Nachdem Datastream Datenänderungen aus einer MySQL-Quelldatenbank in Ihren Cloud Storage-Bucket gestreamt hat, werden Benachrichtigungen über neue Dateien mit den Änderungen an Dataflow gesendet. Der Dataflow-Job verarbeitet die Dateien und überträgt die Änderungen in BigQuery.

  1. Rufen Sie in der Google Cloud Console die Seite Jobs für Dataflow auf.

    Zur Seite „Jobs“

  2. Klicken Sie auf JOB AUS VORLAGE ERSTELLEN.

  3. Geben Sie auf der Seite Job aus Vorlage erstellen im Feld Jobname einen Namen für den Dataflow-Job ein, den Sie erstellen. Geben Sie für diese Anleitung my-dataflow-integration-job in das Feld ein.

  4. Wählen Sie im Menü Regionaler Endpunkt die Region aus, in der der Job gespeichert wird. Dies ist dieselbe Region, die Sie für das Quellverbindungsprofil, das Zielverbindungsprofil und den Stream, den Sie erstellt haben, ausgewählt haben.

  5. Wählen Sie im Menü Dataflow-Vorlage die Vorlage aus, die Sie zum Erstellen des Jobs verwenden. Wählen Sie für diese Anleitung Datastream zu BigQuery aus.

    Nachdem Sie diese Auswahl getroffen haben, werden zusätzliche Felder angezeigt, die sich auf diese Vorlage beziehen.

  6. Geben Sie im Feld Dateispeicherort für Datastream-Dateiausgabe in Cloud Storage den Pfad ein, der den Namen Ihres Cloud Storage-Buckets enthält. Geben Sie für diese Anleitung gs://my-integration-bucket in das Feld ein.

  7. Geben Sie in das Feld Pub/Sub-Abo, das in einer Cloud Storage-Benachrichtigungsrichtlinie verwendet wird den Pfad ein, der den Namen Ihres Pub/Sub-Abos enthält. Geben Sie für diese Anleitung projects/project-name/subscriptions/my_integration_notifs_sub in das Feld ein.

  8. Geben Sie avro in das Feld Ausgabedateiformat von Datastream (avro/json). ein, da Avro in dieser Anleitung das Dateiformat der Dateien ist, die Datastream in Cloud Storage schreibt.

  9. Geben Sie in das Feld Name oder Vorlage für das Dataset, das Staging-Tabellen enthalten soll, My_integration_dataset_log ein, da Dataflow dieses Dataset für die Bereitstellung der Datenänderungen verwenden wird, die es von Datastream erhält.

  10. Geben Sie im Feld Vorlage für das Dataset mit Replikattabellen My_integration_dataset_final ein, da dies das Dataset ist, in dem die Änderungen, die im Dataset My_integration_dataset_log bereitgestellt werden, zusammengeführt werden, um ein 1:1-Replikat der Tabellen in der Quelldatenbank zu erstellen.

  11. Geben Sie in das Feld Warteschlangenverzeichnis für unzustellbare Nachrichten den Pfad ein, der den Namen Ihres Cloud Storage Buckets und einen Ordner für eine Warteschlange für unzustellbare Nachrichten enthält. Alle Datenänderungen, die Dataflow nicht in BigQuery übertragen kann, werden in der Warteschlange gespeichert. Sie können den Inhalt der Warteschlange korrigieren, damit Dataflow ihn noch einmal verarbeiten kann.

    Geben Sie für diese Anleitung gs://my-integration-bucket/dlq in das Feld Warteschlange für unzustellbare Nachrichten ein. Dabei ist dlq der Ordner für die Warteschlange für unzustellbare Nachrichten.

  12. Klicken Sie auf JOB AUSFÜHREN.

Integration prüfen

Im Abschnitt Stream prüfen dieser Anleitung haben Sie bestätigt, dass Datastream die Daten aus allen Tabellen einer MySQL-Quelldatenbank in den Ordner /integration/tutorial Ihres Cloud Storage-Ziel-Buckets übertragen hat.

In diesem Abschnitt überprüfen Sie, ob Dataflow die Dateien verarbeitet, die die mit diesen Daten verbundenen Änderungen enthalten, und die Änderungen in BigQuery überträgt. Deshalb haben Sie eine durchgängige Integration zwischen Datastream und BigQuery.

  1. Wechseln Sie in der Google Cloud Console zur Seite SQL-Arbeitsbereich für BigQuery.

    Zur Seite „SQL-Arbeitsbereich“

  2. Maximieren Sie im Bereich Explorer den Knoten links neben dem Namen des Google Cloud-Projekts.

  3. Maximieren Sie die Knoten links neben den Datasets My_integration_dataset_log und My_integration_dataset_final.

  4. Prüfen Sie, ob jedes Dataset nun Daten enthält. Dies bestätigt, dass Dataflow die Dateien mit den Änderungen, die mit den von Datastream in Cloud Storage gestreamten Daten verbunden sind, verarbeitet und diese Änderungen in BigQuery übertragen hat.

Bereinigen

So vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden.

  1. Verwenden Sie die Google Cloud Console, um Ihr Projekt, den Datastream-Stream und die Datastream-Verbindungsprofile zu löschen, den Dataflow-Job zu beenden und die BigQuery-Datasets, das Pub/Sub-Thema und -Abo sowie den Cloud Storage-Bucket zu löschen.

Durch das Bereinigen der Ressourcen, die Sie in Datastream, Dataflow, BigQuery, Pub/Sub und Cloud Storage erstellt haben, werden diese keine Kontingente mehr beanspruchen und Ihnen in Zukunft nicht in Rechnung gestellt werden. In den folgenden Abschnitten wird erläutert, wie Sie diese Ressourcen löschen oder deaktivieren.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für diese Anleitung erstellten Projekts.

  1. Wechseln Sie in der Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite "Ressourcen verwalten"

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.

  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Herunterfahren, um das Projekt zu löschen.

Stream löschen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite „Streams“

  2. Klicken Sie auf den Stream, den Sie löschen möchten. In dieser Anleitung ist dies Mein Stream.

  3. Klicken Sie auf PAUSIEREN.

  4. Klicken Sie im Dialogfeld auf PAUSIEREN.

  5. Prüfen Sie im Bereich Streamstatus der Seite Stream-Details, ob der Status des Streams Paused ist.

  6. Klicken Sie auf Delete.

  7. Geben Sie im Dialogfeld Delete in das Textfeld ein und klicken Sie dann auf LÖSCHEN.

Verbindungsprofile löschen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite „Verbindungsprofile“

  2. Klicken Sie auf das Kästchen neben jedem Verbindungsprofil, das Sie löschen möchten. Aktivieren Sie für diese Anleitung die Kästchen für Mein Quellverbindungsprofil und Mein Zielverbindungsprofil.

  3. Klicken Sie auf Delete.

  4. Klicken Sie im Dialogfeld auf LÖSCHEN.

Dataflow-Job beenden

  1. Rufen Sie in der Google Cloud Console die Seite Jobs für Dataflow auf.

    Zur Seite „Jobs“

  2. Klicken Sie auf den Job, den Sie beenden möchten. In dieser Anleitung ist dies my-dataflow-integration-job.

  3. Klicken Sie auf BEENDEN.

  4. Wählen Sie im Dialogfeld Job beenden die Option Per Drain beenden aus und klicken Sie dann auf JOB BEENDEN.

BigQuery-Datasets löschen

  1. Wechseln Sie in der Google Cloud Console zur Seite SQL-Arbeitsbereich für BigQuery.

    Zur Seite „SQL-Arbeitsbereich“

  2. Maximieren Sie im Bereich Explorer den Knoten links neben dem Google Cloud-Projektnamen.

  3. Klicken Sie rechts neben einem der Datasets, die Sie unter Datasets in BigQuery erstellen erstellt haben, auf die Schaltfläche Aktionen aufrufen. Diese Schaltfläche sieht wie eine vertikale Ellipse aus.

    Klicken Sie für diese Anleitung rechts neben My_integration_dataset_log auf die Schaltfläche Aktionen aufrufen.

  4. Wählen Sie aus dem Drop-down-Menü Löschen aus.

  5. Geben Sie im Dialogfeld Dataset löschen? den Wert delete in das Textfeld ein und klicken Sie auf LÖSCHEN.

  6. Führen Sie die folgenden Schritte aus, um das zweite von Ihnen erstellte Dataset zu löschen: My_integration_dataset_final.

Pub/Sub-Abo und -Thema löschen

  1. Rufen Sie in der Google Cloud Console die Seite Abos für Pub/Sub auf.

    Zur Seite "Abos"

  2. Klicken Sie auf das Kästchen links neben dem Abo, das Sie löschen möchten. Klicken Sie für diese Anleitung auf das Kästchen links neben my_integration_notifs_sub.

  3. Klicken Sie auf Delete.

  4. Klicken Sie im Dialogfeld Abo löschen auf LÖSCHEN.

  5. Rufen Sie in der Google Cloud Console die Seite Themen für Pub/Sub auf.

    Zur Seite „Themen“

  6. Klicken Sie auf das Kästchen links neben dem Thema, das Sie löschen möchten. Klicken Sie für diese Anleitung auf das Kästchen links neben my_integration_notifs.

  7. Klicken Sie auf Delete.

  8. Geben Sie im Dialogfeld Thema löschen den Wert delete in das Textfeld ein und klicken Sie auf LÖSCHEN.

Cloud Storage-Bucket löschen

  1. Rufen Sie in der Google Cloud Console die Seite Browser für Cloud Storage auf.

    Zur Seite „Browser“

  2. Klicken Sie auf das Kästchen links neben dem Bucket. In dieser Anleitung ist dies my-integration-bucket.

  3. Klicken Sie auf Delete.

  4. Geben Sie im Dialogfeld DELETE in das Textfeld ein und klicken Sie dann auf LÖSCHEN.

Nächste Schritte