Vorlage „Bigtable-Änderungsstream für BigQuery“ verwenden
In dieser Kurzanleitung erfahren Sie, wie Sie eine Bigtable-Tabelle mit einem aktivierten Änderungsstream einrichten, eine Änderungsstream-Pipeline ausführen, Änderungen an der Tabelle vornehmen und die gestreamten Änderungen ansehen.
Hinweise
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Cloud Bigtable API, Cloud Bigtable Admin API, and BigQuery APIs.
-
In the Google Cloud console, activate Cloud Shell.
BigQuery-Dataset erstellen
Erstellen Sie mit der Google Cloud Console ein Dataset, in dem die Daten gespeichert werden.
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.
Maximieren Sie die Option
Aktionen und klicken Sie auf Dataset erstellen.Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
- Geben Sie unter Dataset-ID
bigtable_bigquery_quickstart
ein. - Übernehmen Sie die verbleibenden Standardeinstellungen und klicken Sie auf Dataset erstellen.
- Geben Sie unter Dataset-ID
Tabelle mit aktiviertem Änderungsstream erstellen
Rufen Sie in der Google Cloud Console die Seite Bigtable-Instanzen auf.
Klicken Sie auf die ID der Instanz, die Sie für diese Kurzanleitung verwenden.
Wenn Sie keine Instanz haben, erstellen Sie eine Instanz mit den Standardkonfigurationen in einer Region in Ihrer Nähe.
Klicken Sie im linken Navigationsbereich auf Sicherungen.
Klicken Sie auf Tabelle erstellen.
Geben Sie der Tabelle den Namen
bigquery-changestream-quickstart
.Fügen Sie eine Spaltenfamilie mit dem Namen
cf
hinzu.Wählen Sie Änderungsstream aktivieren aus.
Klicken Sie auf Erstellen.
Suchen Sie auf der Seite Bigtable-Tabellen nach Ihrer Tabelle
bigquery-changestream-quickstart
.Klicken Sie in der Spalte Änderungsstream auf Verbinden.
Wählen Sie im Dialogfeld BigQuery aus.
Klicken Sie auf Dataflow-Job erstellen.
Geben Sie Ihre Parameterwerte in die Parameterfelder ein. Optionale Parameter sind nicht erforderlich.
- Legen Sie die Bigtable-Anwendungsprofil-ID auf
default
fest. - Legen Sie das BigQuery-Dataset auf
bigtable_bigquery_quickstart
fest.
- Legen Sie die Bigtable-Anwendungsprofil-ID auf
Klicken Sie auf Job ausführen.
Warten Sie, bis der Jobstatus Startet oder Wird ausgeführt lautet, bevor Sie fortfahren. Nach dem Einreichen dauert es etwa fünf Minuten, bis der Job in die Warteschlange gestellt wird.
Lassen Sie den Job auf einem Tab geöffnet, damit Sie ihn beenden können, wenn Sie Ihre Ressourcen bereinigen.
Daten in Bigtable schreiben
Schreiben Sie in der Cloud Shell einige Zeilen in Bigtable, damit das Änderungsprotokoll einige Daten in BigQuery schreiben kann. Solange Sie die Daten nach dem Erstellen des Jobs schreiben, werden die Änderungen angezeigt. Sie müssen nicht warten, bis der Jobstatus
running
ist.cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \ set bigquery-changestream-quickstart user123 cf:col1=abc cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \ set bigquery-changestream-quickstart user546 cf:col1=def cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \ set bigquery-changestream-quickstart user789 cf:col1=ghi
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID des verwendeten Projekts
- BIGTABLE_INSTANCE_ID: Die ID der Instanz, die die Tabelle
bigquery-changestream-quickstart
enthält.
Änderungsprotokolle in BigQuery ansehen
Öffnen Sie in der Google Cloud Console die Seite BigQuery.
Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset
bigtable_bigquery_quickstart
.Klicken Sie auf die Tabelle
bigquery-changestream-quickstart_changelog
.Klicken Sie auf Vorschau, um das Änderungsprotokoll aufzurufen.
Bereinigen
Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud -Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
Deaktivieren Sie den Änderungsstream für die Tabelle:
gcloud bigtable instances tables update bigquery-changestream-quickstart \ --project=PROJECT_ID --instance=BIGTABLE_INSTANCE_ID \ --clear-change-stream-retention-period
Löschen Sie die Tabelle
bigquery-changestream-quickstart
:cbt --instance=BIGTABLE_INSTANCE_ID --project=PROJECT_ID deletetable bigquery-changestream-quickstart
Beenden Sie die Änderungsstream-Pipeline:
Rufen Sie in der Google Cloud Console die Dataflow-Seite Jobs auf.
Wählen Sie den Streaming-Job aus der Jobliste aus.
Klicken Sie im Navigationsbereich auf Beenden.
Wählen Sie im Dialogfeld Job beenden die Option Abbrechen und dann Job beenden aus.
Löschen Sie das BigQuery-Dataset:
Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.
Suchen Sie im Bereich Explorer nach dem Datensatz
bigtable_bigquery_quickstart
und klicken Sie darauf.Klicken Sie auf Löschen, geben Sie
delete
ein und klicken Sie dann auf Löschen, um den Löschvorgang zu bestätigen.
Optional: Löschen Sie die Instanz, falls Sie eine neue für diesen Schnellstart erstellt haben:
cbt deleteinstance BIGTABLE_INSTANCE_ID