Datastream und Dataflow für Analysen implementieren

Datastream

Datastream unterstützt das direkte Streamen von Daten aus Oracle-, MySQL- und PostgreSQL-Datenbanken in BigQuery-Datasets. Wenn Sie jedoch mehr Kontrolle über die Streamverarbeitungslogik benötigen, z. B. Datentransformation oder manuelles Festlegen logischer Primärschlüssel, können Sie Datastream in Dataflow-Jobvorlagen einbinden.

In dieser Anleitung erfahren Sie, wie sich Datastream in Dataflow einbinden lässt. Dabei werden Dataflow-Jobvorlagen verwendet, um aktuelle materialisierte Ansichten in BigQuery für Analysen zu streamen.

In Organisationen mit vielen isolierten Datenquellen kann der Zugriff auf Unternehmensdaten im gesamten Unternehmen – insbesondere in Echtzeit – eingeschränkt und langsam sein. Dies schränkt die Fähigkeit der Organisation ein, Introspektion zu betreiben.

Datastream bietet nahezu in Echtzeit Zugriff auf Änderungen an Daten aus verschiedenen lokalen und cloudbasierten Datenquellen. Datastream ermöglicht die Einrichtung, sodass Sie für das Streaming von Daten nicht viel konfigurieren müssen. Datastream übernimmt dies für Sie. Datastream verfügt außerdem über eine API für die einheitliche Nutzung, die den Zugriff Ihrer Organisation auf aktuelle verfügbare Unternehmensdaten für ganzheitliche Szenarien demokratisiert.

Ein solches Szenario ist das Übertragen von Daten aus einer Quelldatenbank in einen cloudbasierten Speicherdienst oder eine Messaging-Warteschlange. Nachdem Datastream die Daten gestreamt hat, werden die Daten in eine Form umgewandelt, die von anderen Anwendungen und Diensten gelesen werden kann. In dieser Anleitung ist Dataflow der Webdienst, der mit dem Speicherdienst oder der Nachrichtenwarteschlange kommuniziert, um Daten in Google Cloud zu erfassen und zu verarbeiten.

Sie erfahren, wie Sie mit Datastream Änderungen (eingefügte, aktualisierte oder gelöschte Daten) aus einer MySQL-Quelldatenbank in einen Ordner in einem Cloud Storage-Bucket streamen. Anschließend konfigurieren Sie den Cloud Storage-Bucket so, dass Benachrichtigungen gesendet werden, mit denen Dataflow Informationen zu neuen Dateien mit den Datenänderungen sendet, die Datastream aus der Quelldatenbank streamt. Ein Dataflow-Job verarbeitet die Dateien und überträgt die Änderungen an BigQuery.

Flussdiagramm: Integrationsnutzer

Lernziele

In dieser Anleitung lernen Sie, wie Sie:

  • Erstellen Sie einen Bucket in Cloud Storage. Dies ist der Ziel-Bucket, in den Datastream Schemas, Tabellen und Daten aus einer MySQL-Quelldatenbank streamt.
  • Pub/Sub-Benachrichtigungen für den Cloud Storage-Bucket aktivieren. Dadurch konfigurieren Sie den Bucket so, dass Benachrichtigungen gesendet werden, die Dataflow verwendet, um sich über neue Dateien zu informieren, die verarbeitet werden können. Diese Dateien enthalten Änderungen an Daten, die Datastream aus der Quelldatenbank in den Bucket streamt.
  • Erstellen Sie Datasets in BigQuery. BigQuery verwendet Datasets, um die von Dataflow erhaltenen Daten zu speichern. Diese Daten stellen die Änderungen in der Quelldatenbank dar, die Datastream in den Cloud Storage-Bucket streamt.
  • Erstellen und verwalten Sie Verbindungsprofile für eine Quelldatenbank und einen Ziel-Bucket in Cloud Storage. Ein Stream in Datastream verwendet die Informationen in den Verbindungsprofilen, um Daten aus der Quelldatenbank in den Bucket zu übertragen.
  • Stream erstellen und starten. Dieser Stream überträgt Daten, Schemas und Tabellen aus der Quelldatenbank in den Bucket.
  • Prüfen Sie, ob Datastream die mit einem Schema der Quelldatenbank verknüpften Daten und Tabellen in den Bucket überträgt.
  • Job in Dataflow erstellen. Nachdem Datastream Datenänderungen aus der Quelldatenbank in den Cloud Storage-Bucket gestreamt hat, werden Benachrichtigungen über neue Dateien mit den Änderungen an Dataflow gesendet. Der Dataflow-Job verarbeitet die Dateien und überträgt die Änderungen in BigQuery.
  • Dataflow muss die Dateien verarbeitet, die die mit diesen Daten verbundenen Änderungen enthalten, und die Änderungen in BigQuery übertragen. Deshalb haben Sie eine durchgängige Integration zwischen Datastream und BigQuery.
  • Bereinigen Sie die Ressourcen, die Sie in Datastream, Cloud Storage, Pub/Sub, Dataflow und BigQuery erstellt haben, damit sie kein Kontingent verbrauchen und Ihnen in Zukunft nicht in Rechnung gestellt werden.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

  • Datastream
  • Cloud Storage
  • Pub/Sub
  • Dataflow
  • BigQuery

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweise

  1. Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  3. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  4. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

    Zur Projektauswahl

  5. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  6. Aktivieren Sie die Datastream API.

    API aktivieren

  7. Ihrem Nutzerkonto muss die Rolle „Datastream-Administrator“ zugewiesen sein.

    Zur IAM-Seite

  8. Sorgen Sie dafür, dass Sie eine MySQL-Quelldatenbank haben, auf die Datastream zugreifen kann. Überprüfen Sie außerdem, ob sich in der Datenbank Daten, Tabellen und Schemas befinden.
  9. Konfigurieren Sie Ihre MySQL-Datenbank so, dass eingehende Verbindungen von öffentlichen Datastream-IP-Adressen zugelassen werden. Eine Liste aller Datastream-Regionen und der zugehörigen öffentlichen IP-Adressen finden Sie unter IP-Zulassungslisten und -Regionen.
  10. Richten Sie Change Data Capture (CDC) für die Quelldatenbank ein. Weitere Informationen finden Sie unter MySQL-Quelldatenbank konfigurieren.
  11. Achten Sie darauf, dass alle Voraussetzungen erfüllt sind, um Pub/Sub-Benachrichtigungen für Cloud Storage zu aktivieren.

    In dieser Anleitung erstellen Sie einen Ziel-Bucket in Cloud Storage und aktivieren Pub/Sub-Benachrichtigungen für den Bucket. Dadurch kann Dataflow Benachrichtigungen über neue Dateien erhalten, die Datastream in den Bucket schreibt. Diese Dateien enthalten Änderungen an Daten, die Datastream aus der Quelldatenbank in den Bucket streamt.

Voraussetzungen

Datastream bietet eine Vielzahl von Quelloptionen, Zieloptionen und Netzwerkverbindungsmethoden.

Für diese Anleitung gehen wir davon aus, dass Sie eine eigenständige MySQL-Datenbank und einen Cloud Storage-Zieldienst verwenden. Für die Quelldatenbank sollten Sie Ihr Netzwerk so konfigurieren können, dass eine eingehende Firewallregel hinzugefügt wird. Die Quelldatenbank kann lokal oder bei einem Cloudanbieter bereitgestellt werden. Für das Cloud Storage-Ziel ist keine Verbindungskonfiguration erforderlich.

Da wir die Besonderheiten Ihrer Umgebung nicht kennen, können wir keine detaillierten Schritte in Bezug auf Ihre Netzwerkkonfiguration anbieten.

In dieser Anleitung wählen Sie IP-Zulassungsliste als Netzwerkverbindungsmethode aus. IP-Zulassungslisten sind eine Sicherheitsfunktion, mit der der Zugriff auf die Daten in Ihrer Quelldatenbank häufig auf vertrauenswürdige Nutzer beschränkt und gesteuert wird. Sie können IP-Zulassungslisten verwenden, um Listen mit vertrauenswürdigen IP-Adressen oder IP-Bereichen zu erstellen, von denen Ihre Nutzer und andere Google Cloud-Dienste wie Datastream auf diese Daten zugreifen können. Damit Sie IP-Zulassungslisten verwenden können, müssen Sie die Quelldatenbank oder Firewall für eingehende Verbindungen von Datastream öffnen.

Erstellen Sie einen Bucket in Cloud Storage

Erstellen Sie in Cloud Storage einen Ziel-Bucket, in den Datastream Schemas, Tabellen und Daten aus einer MySQL-Quelldatenbank streamt.

  1. Rufen Sie in der Google Cloud Console die Seite Browser für Cloud Storage auf.

    Zur Seite "Browser"

  2. Klicken Sie auf Bucket erstellen. Die Seite Bucket erstellen wird angezeigt.

  3. Geben Sie im Textfeld der Region Bucket benennen my-integration-bucket ein und klicken Sie dann auf Weiter.

  4. Übernehmen Sie für jede verbleibende Region der Seite die Standardeinstellungen. Klicken Sie am Ende jeder Region auf Weiter.

  5. Klicken Sie auf Erstellen.

Pub/Sub-Benachrichtigungen für den Cloud Storage-Bucket aktivieren

In diesem Abschnitt aktivieren Sie Pub/Sub-Benachrichtigungen für den von Ihnen erstellten Cloud Storage-Bucket. Dadurch konfigurieren Sie den Bucket so, dass Dataflow über alle neuen Dateien benachrichtigt wird, die Datastream in den Bucket schreibt. Diese Dateien enthalten Änderungen an Daten, die Datastream aus einer MySQL-Quelldatenbank in den Bucket streamt.

  1. Rufen Sie den von Ihnen erstellten Cloud Storage-Bucket auf. Die Seite Bucket-Details wird angezeigt.

  2. Klicken Sie auf Cloud Shell aktivieren.

  3. Geben Sie bei der Eingabeaufforderung folgenden Befehl ein:

    gsutil notification create -t my_integration_notifs -f json -p integration/tutorial/ gs://my-integration-bucket

  4. Optional: Wenn das Fenster Cloud Shell autorisieren angezeigt wird, klicken Sie auf Autorisieren.

  5. Prüfen Sie, ob die folgenden Codezeilen angezeigt werden:

    Created Cloud Pub/Sub topic projects/project-name/topics/my_integration_notifs
    Created notification config projects/_/buckets/my-integration-bucket/notificationConfigs/1
    
  6. Rufen Sie in der Google Cloud Console die Seite Themen für Pub/Sub auf.

    Zur Seite "Themen"

  7. Klicken Sie auf das Thema my_integration_notifs, das Sie erstellt haben.

  8. Scrollen Sie auf der Seite my_integration_notifs nach unten. Vergewissere dich, dass der Tab Abos aktiv ist und die Meldung Keine anzuzeigenden Abos angezeigt wird.

  9. Klicken Sie auf Abo erstellen.

  10. Wählen Sie im angezeigten Menü die Option Abo erstellen aus.

  11. Gehen Sie auf der Seite Abo zum Thema hinzufügen so vor:

    1. Geben Sie im Feld Abo-ID den Wert my_integration_notifs_sub ein.
    2. Legen Sie den Wert für die Bestätigungsfrist auf 120 Sekunden fest. Dadurch hat Dataflow genügend Zeit, die verarbeiteten Dateien zu bestätigen, und trägt dazu bei, die Gesamtleistung des Dataflow-Jobs zu verbessern. Weitere Informationen zu Pub/Sub-Aboattributen findest du unter Aboattribute.
    3. Übernehmen Sie alle anderen Standardwerte auf der Seite.
    4. Klicken Sie auf Erstellen.

Später in dieser Anleitung erstellen Sie einen Dataflow-Job. Beim Erstellen dieses Jobs weisen Sie Dataflow als Abonnent des Abos my_integration_notifs_sub zu. Auf diese Weise kann Dataflow Benachrichtigungen über neue Dateien erhalten, die Datastream in den Cloud Storage schreibt, die Dateien verarbeiten und die Datenänderungen in BigQuery übertragen.

Datasets in BigQuery erstellen

In diesem Abschnitt erstellen Sie Datasets in BigQuery. BigQuery verwendet Datasets, um die von Dataflow erhaltenen Daten zu speichern. Diese Daten stellen die Änderungen in der MySQL-Quelldatenbank dar, die Datastream in Ihren Cloud Storage-Bucket streamt.

  1. Rufen Sie in der Google Cloud Console die Seite SQL-Arbeitsbereich für BigQuery auf.

    Zur Seite „SQL-Arbeitsbereich“

  2. Klicken Sie im Bereich Explorer neben dem Namen des Google Cloud-Projekts auf Aktionen ansehen.

  3. Wählen Sie im angezeigten Menü die Option Dataset erstellen aus.

  4. Gehen Sie im Fenster Dataset erstellen so vor:

    1. Geben Sie im Feld Dataset-ID eine ID für das Dataset ein. Geben Sie für diese Anleitung My_integration_dataset_log in das Feld ein.
    2. Lassen Sie alle anderen Standardwerte im Fenster stehen.
    3. Klicken Sie auf Dataset erstellen.
  5. Klicken Sie im Bereich Explorer neben dem Namen Ihres Google Cloud-Projekts auf Knoten maximieren und prüfen Sie dann, ob das erstellte Dataset angezeigt wird.

  6. Führen Sie die Schritte in dieser Anleitung aus, um ein zweites Dataset zu erstellen: My_integration_dataset_final.

  7. Maximieren Sie neben jedem Dataset Knoten maximieren.

  8. Prüfen Sie, ob jedes Dataset leer ist.

Nachdem Datastream Datenänderungen aus der Quelldatenbank in Ihren Cloud Storage-Bucket gestreamt hat, verarbeitet ein Dataflow-Job die Dateien mit den Änderungen und überträgt die Änderungen in die BigQuery-Datasets.

Verbindungsprofile in Datastream erstellen

In diesem Abschnitt erstellen Sie in Datastream Verbindungsprofile für eine Quelldatenbank und ein Ziel. Wählen Sie beim Erstellen der Verbindungsprofile MySQL als Profiltyp für das Quellverbindungsprofil und Cloud Storage als Profiltyp für das Zielverbindungsprofil aus.

Datastream verwendet die in den Verbindungsprofilen definierten Informationen, um eine Verbindung zur Quelle und zum Ziel herzustellen. So können Daten aus der Quelldatenbank in den Ziel-Bucket in Cloud Storage gestreamt werden.

Quellverbindungsprofil für die MySQL-Datenbank erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite "Verbindungsprofile"

  2. Klicken Sie auf Profil erstellen.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp MySQL, um ein Quellverbindungsprofil für Ihre MySQL-Datenbank zu erstellen.

  4. Geben Sie auf der Seite MySQL-Profil erstellen im Abschnitt Verbindungseinstellungen definieren die folgenden Informationen an:

    • Geben Sie im Feld Name des Verbindungsprofils den Wert My Source Connection Profile ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der Sie das Verbindungsprofil speichern möchten.

    • Geben Sie Verbindungsdetails ein:

      • Geben Sie im Feld Hostname oder IP-Adresse einen Hostnamen oder eine öffentliche IP-Adresse ein, mit dem Datastream eine Verbindung zur Quelldatenbank herstellen kann. Sie geben eine öffentliche IP-Adresse an, da Sie die IP-Zulassungsliste als Netzwerkverbindungsmethode für diese Anleitung verwenden.
      • Geben Sie in das Feld Port die Portnummer ein, die für die Quelldatenbank reserviert ist. Bei einer MySQL-Datenbank ist der Standardport normalerweise 3306.
      • Geben Sie einen Nutzernamen und ein Passwort ein, um sich bei Ihrer Quelldatenbank zu authentifizieren.
  5. Klicken Sie im Bereich Verbindungseinstellungen definieren auf Weiter. Der Abschnitt Verbindung mit Ihrer Quelle sichern auf der Seite MySQL-Profil erstellen ist aktiv.

  6. Wählen Sie im Menü Verschlüsselungstyp die Option Keine aus. Weitere Informationen zu diesem Menü finden Sie unter Verbindungsprofil für MySQL-Datenbank erstellen.

  7. Klicken Sie im Abschnitt Verbindung zur Quelle sichern auf Weiter. Der Abschnitt Verbindungsmethode festlegen auf der Seite MySQL-Profil erstellen ist aktiv.

  8. Wählen Sie im Drop-down-Menü Verbindungsmethode die Netzwerkmethode aus, die Sie verwenden möchten, um eine Verbindung zwischen Datastream und der Quelldatenbank herzustellen. Wählen Sie für diese Anleitung IP-Zulassungsliste als Verbindungsmethode aus.

  9. Konfigurieren Sie die Quelldatenbank so, dass eingehende Verbindungen von den öffentlichen Datastream-IP-Adressen zugelassen werden.

  10. Klicken Sie im Bereich Verbindungsmethode definieren auf Weiter. Der Abschnitt Verbindungsprofil testen auf der Seite MySQL-Profil erstellen ist aktiv.

  11. Klicken Sie auf Run test (Test ausführen), um zu prüfen, ob die Quelldatenbank und Datastream miteinander kommunizieren können.

  12. Prüfen Sie, ob der Status Test bestanden angezeigt wird.

  13. Klicken Sie auf Erstellen.

Zielverbindungsprofil für Cloud Storage erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite "Verbindungsprofile"

  2. Klicken Sie auf Profil erstellen.

  3. Klicken Sie auf der Seite Verbindungsprofil erstellen auf den Profiltyp Cloud Storage, um ein Zielverbindungsprofil für Cloud Storage zu erstellen.

  4. Geben Sie auf der Seite Cloud Storage-Profil erstellen die folgenden Informationen an:

    • Geben Sie im Feld Name des Verbindungsprofils den Wert My Destination Connection Profile ein.
    • Behalten Sie die automatisch generierte Verbindungsprofil-ID bei.
    • Wählen Sie die Region aus, in der Sie das Verbindungsprofil speichern möchten.
    • Klicken Sie im Bereich Verbindungsdetails auf Durchsuchen, um den my-integration-bucket auszuwählen, den Sie zuvor in dieser Anleitung erstellt haben. Dies ist der Bucket, in den Datastream Daten aus der Quelldatenbank überträgt. Nachdem Sie Ihre Auswahl getroffen haben, klicken Sie auf Auswählen.

      Ihr Bucket wird im Feld Bucket-Name des Bereichs Verbindungsdetails angezeigt.

    • Geben Sie im Feld Pfadpräfix des Verbindungsprofils ein Präfix für den Pfad an, den Sie an den Bucket-Namen anhängen möchten, wenn Datastream Daten an das Ziel streamt. Achten Sie darauf, dass Datastream Daten in einen Pfad innerhalb des Buckets schreibt, nicht in den Bucket-Stammordner. Verwenden Sie für diese Anleitung den Pfad, den Sie beim Konfigurieren der Pub/Sub-Benachrichtigung definiert haben. Geben Sie /integration/tutorial in das Feld ein.

  5. Klicken Sie auf Erstellen.

Nachdem Sie ein Quellverbindungsprofil für die MySQL-Datenbank und ein Zielverbindungsprofil für Cloud Storage erstellt haben, können Sie damit einen Stream erstellen.

Stream in Datastream erstellen

In diesem Abschnitt erstellen Sie einen Stream. Dieser Stream verwendet die Informationen in den Verbindungsprofilen, um Daten aus einer MySQL-Quelldatenbank in einen Ziel-Bucket in Cloud Storage zu übertragen.

Einstellungen für den Stream festlegen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite "Streams"

  2. Klicken Sie auf Stream erstellen.

  3. Geben Sie auf der Seite Stream erstellen im Bereich Streamdetails definieren die folgenden Informationen an:

    • Geben Sie im Feld Stream-Name My Stream ein.
    • Behalte die automatisch generierte Stream-ID bei.
    • Wählen Sie im Menü Region die Region aus, in der Sie Ihre Quell- und Zielverbindungsprofile erstellt haben.
    • Wählen Sie im Menü Quelltyp den Profiltyp MySQL aus.
    • Wählen Sie im Menü Zieltyp den Profiltyp Cloud Storage aus.
  4. Prüfen Sie die erforderlichen Voraussetzungen, die automatisch generiert werden, um widerzuspiegeln, wie Ihre Umgebung für einen Stream vorbereitet sein muss. Diese Voraussetzungen können beispielsweise das Konfigurieren der Quelldatenbank und das Verbinden von Datastream mit dem Ziel-Bucket in Cloud Storage umfassen.

  5. Klicken Sie auf Weiter. Der Bereich MySQL-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.

Informationen zum Quellverbindungsprofil angeben

In diesem Abschnitt wählen Sie das Verbindungsprofil aus, das Sie für Ihre Quelldatenbank erstellt haben (das Quellverbindungsprofil). In dieser Anleitung ist dies My Source Connection Profile.

  1. Wählen Sie im Menü Quellverbindungsprofil Ihr Quellverbindungsprofil für die MySQL-Datenbank aus.

  2. Klicken Sie auf Run test (Test ausführen), um zu prüfen, ob die Quelldatenbank und Datastream miteinander kommunizieren können.

    Wenn der Test fehlschlägt, wird das mit dem Verbindungsprofil verknüpfte Problem angezeigt. Weitere Informationen zur Fehlerbehebung finden Sie auf der Seite Probleme diagnostizieren. Nehmen Sie die erforderlichen Änderungen vor, um das Problem zu beheben, und führen Sie den Test noch einmal durch.

  3. Klicken Sie auf Weiter. Der Bereich Stream-Quelle konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zur Quelldatenbank für den Stream konfigurieren

In diesem Abschnitt konfigurieren Sie Informationen zur Quelldatenbank für den Stream. Dazu geben Sie die Tabellen und Schemas in der Quelldatenbank an, die Datastream:

  • In das Ziel übertragen kann.
  • Nicht in das Ziel übertragen darf.

Außerdem legen Sie fest, ob Datastream Verlaufsdaten rückwirkend auffüllt und laufende Änderungen in das Ziel streamt, oder ob nur Änderungen an den Daten gestreamt werden.

  1. Verwenden Sie das Menü Aufzunehmende Objekte, um die Tabellen und Schemata in Ihrer Quelldatenbank anzugeben, die Datastream in einen Ordner im Ziel-Bucket in Cloud Storage übertragen kann. Das Menü wird nur geladen,wenn Ihre Datenbank bis zu 5.000 Objekte enthält.

    In dieser Anleitung soll Datastream alle Tabellen und Schemas übertragen. Wählen Sie daher im Menü die Option Alle Tabellen aus allen Schemas aus.

  2. Prüfen Sie, ob der Bereich Auszuschließende Objekte auswählen auf Keine festgelegt ist. Sie möchten Datastream nicht daran hindern, Tabellen und Schemata aus Ihrer Quelldatenbank nach Cloud Storage zu übertragen.

  3. Achten Sie darauf, dass der Bereich Backfill-Modus für Verlaufsdaten auswählen auf Automatisch eingestellt ist. Mit Datastream werden zusätzlich zu den Änderungen an den Daten alle vorhandenen Daten von der Quelle in das Ziel gestreamt.

  4. Klicken Sie auf Weiter. Der Bereich Cloud Storage-Verbindungsprofil definieren der Seite Stream erstellen wird angezeigt.

Zielverbindungsprofil auswählen

In diesem Abschnitt wählen Sie das Verbindungsprofil aus, das Sie für Cloud Storage erstellt haben (das Zielverbindungsprofil). In dieser Anleitung ist dies My Destination Connection Profile (Verbindungsprofil für My Ziel).

  1. Wählen Sie im Menü Zielverbindungsprofil Ihr Zielverbindungsprofil für Cloud Storage aus.

  2. Klicken Sie auf Weiter. Der Bereich Stream-Ziel konfigurieren der Seite Stream erstellen wird angezeigt.

Informationen zum Ziel für den Stream konfigurieren

In diesem Abschnitt konfigurieren Sie Informationen zum Ziel-Bucket für den Stream. Zu diesen Daten gehören:

  • Das Ausgabeformat der in Cloud Storage geschriebenen Dateien.
  • Der Ordner des Ziel-Buckets, in den Datastream Schemas, Tabellen und Daten aus der Quelldatenbank überträgt.
  1. Wählen Sie im Feld Ausgabeformat das Format der in Cloud Storage geschriebenen Dateien aus. Datastream unterstützt zwei Ausgabeformate: Avro und JSON. In dieser Anleitung ist Avro das Dateiformat.

  2. Klicken Sie auf Weiter. Der Bereich Stream-Details prüfen und erstellen der Seite Stream erstellen wird angezeigt.

Stream erstellen

  1. Prüfen Sie Details zum Stream sowie zum Quell- und Zielverbindungsprofil, mit dem der Stream Daten aus einer MySQL-Quelldatenbank in einen Ziel-Bucket in Cloud Storage überträgt.

  2. Klicken Sie auf Überprüfung ausführen, um den Stream zu validieren. Bei der Validierung eines Streams prüft Datastream, ob die Quelle richtig konfiguriert ist, ob der Stream eine Verbindung zur Quelle und zum Ziel herstellen kann und ob die End-to-End-Konfiguration des Streams stimmt.

  3. Wenn alle Validierungsprüfungen bestanden wurden, klicken Sie auf Erstellen.

  4. Klicke im Dialogfeld Stream erstellen? auf Erstellen.

Stream starten

In dieser Anleitung erstellen und starten Sie einen Stream separat, für den Fall, dass der Stream-Erstellungsprozess eine erhöhte Belastung Ihrer Quelldatenbank verursacht. Um diese Auslastung zu vermeiden, erstellen Sie den Stream, ohne ihn zu starten, und starten ihn dann, wenn Ihre Datenbank die Last verarbeiten kann.

Durch das Starten des Streams kann Datastream Daten, Schemas und Tabellen von der Quelldatenbank zum Ziel übertragen.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite "Streams"

  2. Klicken Sie das Kästchen neben dem Stream an, den Sie starten möchten. In dieser Anleitung ist dies Mein Stream.

  3. Klicken Sie auf Start.

  4. Klicken Sie im Dialogfeld auf Starten. Der Status des Streams ändert sich von Not started in Starting in Running.

Nachdem Sie einen Stream gestartet haben, können Sie überprüfen, ob Datastream Daten aus der Quelldatenbank zum Ziel übertragen hat.

Stream prüfen

In diesem Abschnitt bestätigen Sie, dass Datastream die Daten aus allen Tabellen einer MySQL-Quelldatenbank in den Ordner /integration/tutorial Ihres Cloud Storage-Ziel-Buckets überträgt. In dieser Anleitung lautet der Name des Buckets my-integration-bucket.

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite "Streams"

  2. Klicken Sie auf den Stream, den Sie erstellt haben. In dieser Anleitung ist dies Mein Stream.

  3. Klicken Sie auf der Seite Streamdetails auf den Link my-integration-bucket/integration/tutorial. Dieser Link wird nach dem Feld Zielschreibpfad angezeigt. Die Seite Bucket-Details von Cloud Storage wird in einem separaten Tab geöffnet.

  4. Prüfen Sie, ob die Ordner angezeigt werden, die Tabellen der Quelldatenbank darstellen.

  5. Klicken Sie auf einen der Tabellenordner und dann auf jeden Unterordner, bis Sie Daten sehen, die mit der Tabelle verknüpft sind.

Dataflow-Job erstellen

In diesem Abschnitt erstellen Sie einen Job in Dataflow. Nachdem Datastream Datenänderungen aus einer MySQL-Quelldatenbank in Ihren Cloud Storage-Bucket gestreamt hat, sendet Pub/Sub Benachrichtigungen an Dataflow über neue Dateien, die die Änderungen enthalten. Der Dataflow-Job verarbeitet die Dateien und überträgt die Änderungen in BigQuery.

  1. Rufen Sie in der Google Cloud Console die Seite Jobs für Dataflow auf.

    Zur Seite „Jobs“

  2. Klicken Sie auf Job aus Vorlage erstellen.

  3. Geben Sie auf der Seite Job aus Vorlage erstellen im Feld Jobname einen Namen für den Dataflow-Job ein, den Sie erstellen. Geben Sie für diese Anleitung my-dataflow-integration-job in das Feld ein.

  4. Wählen Sie im Menü Regionaler Endpunkt die Region aus, in der der Job gespeichert werden soll. Dies ist dieselbe Region, die Sie für das Quellverbindungsprofil, das Zielverbindungsprofil und den Stream, den Sie erstellt haben, ausgewählt haben.

  5. Wählen Sie im Menü Dataflow-Vorlage die Vorlage aus, die Sie zum Erstellen des Jobs verwenden. Wählen Sie für diese Anleitung Datastream zu BigQuery aus.

    Nachdem Sie diese Auswahl getroffen haben, werden zusätzliche Felder angezeigt, die sich auf diese Vorlage beziehen.

  6. Geben Sie im Feld Dateispeicherort für Datastream-Dateiausgabe in Cloud Storage den Pfad ein, der den Namen Ihres Cloud Storage-Buckets enthält. Geben Sie für diese Anleitung gs://my-integration-bucket ein.

  7. Geben Sie in das Feld Pub/Sub-Abo, das in einer Cloud Storage-Benachrichtigungsrichtlinie verwendet wird den Pfad ein, der den Namen Ihres Pub/Sub-Abos enthält. Geben Sie für diese Anleitung projects/project-name/subscriptions/my_integration_notifs_sub ein.

  8. Geben Sie avro in das Feld Ausgabedateiformat von Datastream (avro/json). ein, da Avro in dieser Anleitung das Dateiformat der Dateien ist, die Datastream in Cloud Storage schreibt.

  9. Geben Sie im Feld Name oder Vorlage des Datasets, das Staging-Tabellen enthalten soll. den Wert My_integration_dataset_log ein, da Dataflow dieses Dataset zum Staging der Datenänderungen verwendet, die es von Datastream erhält.

  10. Geben Sie im Feld Vorlage für das Dataset, das Replikattabellen enthält. den Wert My_integration_dataset_final ein, da die Änderungen, die im Dataset My_integration_dataset_log bereitgestellt werden, zu einem 1:1-Replikat der Tabellen in der Quelldatenbank zusammengeführt werden.

  11. Geben Sie im Feld Verzeichnis für unzustellbare Nachrichten den Pfad ein, der den Namen Ihres Cloud Storage-Bucket und einen Ordner für die Warteschlange für unzustellbare Nachrichten enthält. Achten Sie darauf, dass Sie keinen Pfad im Stammordner verwenden und dass sich der Pfad von dem unterscheidet, in den Datastream Daten schreibt. Alle Datenänderungen, die Dataflow nicht in BigQuery übertragen kann, werden in der Warteschlange gespeichert. Sie können den Inhalt der Warteschlange korrigieren, damit Dataflow ihn noch einmal verarbeiten kann.

    Geben Sie für diese Anleitung gs://my-integration-bucket/dlq in das Feld Warteschlange für unzustellbare Nachrichten ein. Dabei ist dlq der Ordner für die Warteschlange für unzustellbare Nachrichten.

  12. Klicken Sie auf Job ausführen.

Integration prüfen

Im Abschnitt Stream überprüfen dieser Anleitung haben Sie bestätigt, dass Datastream die Daten aus allen Tabellen einer MySQL-Quelldatenbank in den Ordner /integration/tutorial Ihres Cloud Storage-Ziel-Buckets übertragen hat.

In diesem Abschnitt überprüfen Sie, ob Dataflow die Dateien verarbeitet, die die mit diesen Daten verbundenen Änderungen enthalten, und die Änderungen in BigQuery überträgt. Deshalb haben Sie eine durchgängige Integration zwischen Datastream und BigQuery.

  1. Rufen Sie in der Google Cloud Console die Seite SQL-Arbeitsbereich für BigQuery auf.

    Zur Seite „SQL-Arbeitsbereich“

  2. Maximieren Sie im Bereich Explorer den Knoten neben dem Namen Ihres Google Cloud-Projekts.

  3. Maximieren Sie die Knoten neben den Datasets My_integration_dataset_log und My_integration_dataset_final.

  4. Prüfen Sie, ob jedes Dataset nun Daten enthält. Dies bestätigt, dass Dataflow die Dateien mit den Änderungen, die mit den von Datastream in Cloud Storage gestreamten Daten verbunden sind, verarbeitet und diese Änderungen in BigQuery übertragen hat.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, können Sie mit der Google Cloud Console Folgendes tun:

  • Löschen Sie Ihr Projekt, den Datastream-Stream und die Datastream-Verbindungsprofile.
  • Beenden Sie den Dataflow-Job.
  • Löschen Sie die BigQuery-Datasets, das Pub/Sub-Thema und -Abo und den Cloud Storage-Bucket.

Durch das Bereinigen der Ressourcen, die Sie in Datastream, Dataflow, BigQuery, Pub/Sub und Cloud Storage erstellt haben, verhindern Sie, dass die Ressourcen Ihr Kontingent belegen und Ihnen in Zukunft nicht in Rechnung gestellt werden.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten durch Löschen des für diese Anleitung erstellten Projekts.

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite "Ressourcen verwalten"

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.

  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Beenden, um das Projekt zu löschen.

Stream löschen

  1. Rufen Sie in der Google Cloud Console die Seite Streams für Datastream auf.

    Zur Seite "Streams"

  2. Klicken Sie auf den Stream, den Sie löschen möchten. In dieser Anleitung ist dies Mein Stream.

  3. Klicken Sie auf Pausieren.

  4. Klicken Sie im Dialogfeld auf Pausieren.

  5. Prüfen Sie im Bereich Streamstatus der Seite Stream-Details, ob der Status des Streams Paused ist.

  6. Klicken Sie auf Löschen.

  7. Geben Sie im Dialogfeld im Textfeld Delete ein und klicken Sie dann auf Löschen.

Verbindungsprofile löschen

  1. Rufen Sie in der Google Cloud Console die Seite Verbindungsprofile für Datastream auf.

    Zur Seite "Verbindungsprofile"

  2. Klicken Sie das Kästchen für jedes Verbindungsprofil an, das Sie löschen möchten: My Source Connection Profile (Mein Quellverbindungsprofil) und My Destination Connection Profile (Mein Quellverbindungsprofil).

  3. Klicken Sie auf Löschen.

  4. Klicken Sie im Dialogfeld auf Löschen.

Dataflow-Job beenden

  1. Rufen Sie in der Google Cloud Console die Seite Jobs für Dataflow auf.

    Zur Seite „Jobs“

  2. Klicken Sie auf den Job, den Sie beenden möchten. In dieser Anleitung ist dies my-dataflow-integration-job.

  3. Klicken Sie auf Beenden.

  4. Wählen Sie im Dialogfeld Job anhalten die Option Per Drain beenden aus und klicken Sie dann auf Job beenden.

BigQuery-Datasets löschen

  1. Rufen Sie in der Google Cloud Console die Seite SQL-Arbeitsbereich für BigQuery auf.

    Zur Seite „SQL-Arbeitsbereich“

  2. Maximieren Sie im Bereich Explorer den Knoten neben dem Namen Ihres Google Cloud-Projekts.

  3. Klicken Sie rechts neben einem der Datasets, die Sie unter Datasets in BigQuery erstellen erstellt haben, auf die Schaltfläche Aktionen ansehen. Diese Schaltfläche sieht wie eine vertikale Ellipse aus.

    Klicken Sie für diese Anleitung rechts neben My_integration_dataset_log auf die Schaltfläche Aktionen ansehen.

  4. Wählen Sie aus dem Drop-down-Menü Löschen aus.

  5. Geben Sie im Dialogfeld Dataset löschen? in das Textfeld delete ein und klicken Sie dann auf Löschen.

  6. Wiederholen Sie die Schritte in dieser Anleitung, um das zweite Dataset zu löschen, das Sie erstellt haben: My_integration_dataset_final.

Pub/Sub-Abo und -Thema löschen

  1. Rufen Sie in der Google Cloud Console die Seite Abos für Pub/Sub auf.

    Zur Seite "Abos"

  2. Klicken Sie auf das Kästchen neben dem Abo, das Sie löschen möchten. Klicken Sie für diese Anleitung auf das Kästchen neben dem Abo my_integration_notifs_sub.

  3. Klicken Sie auf Löschen.

  4. Klicken Sie im Dialogfeld Abo löschen auf Löschen.

  5. Rufen Sie in der Google Cloud Console die Seite Themen für Pub/Sub auf.

    Zur Seite "Themen"

  6. Klicken Sie auf das Kästchen neben dem Thema my_integration_notifs.

  7. Klicken Sie auf Löschen.

  8. Geben Sie im Dialogfeld Thema löschen den Wert delete in das Textfeld ein und klicken Sie auf Löschen.

Cloud Storage-Bucket löschen

  1. Rufen Sie in der Google Cloud Console die Seite Browser für Cloud Storage auf.

    Zur Seite "Browser"

  2. Klicken Sie das Kästchen neben dem Bucket an. In dieser Anleitung ist dies my-integration-bucket.

  3. Klicken Sie auf Löschen.

  4. Geben Sie im Dialogfeld Delete in das Textfeld ein und klicken Sie dann auf Löschen.

Nächste Schritte