Vorlage „Bigtable-Änderungsstream für BigQuery“ verwenden

In dieser Kurzanleitung erfahren Sie, wie Sie eine Bigtable-Tabelle mit einem aktivierten Änderungsstream einrichten, eine Änderungsstream-Pipeline ausführen, Änderungen an Ihrer Tabelle vornehmen und die Änderungen dann streamen.

Hinweise

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

  3. Dataflow, Cloud Bigtable API, Cloud Bigtable Admin API, and BigQuery APIs aktivieren.

    Aktivieren Sie die APIs

  4. Aktivieren Sie Cloud Shell in der Google Cloud Console.

    Cloud Shell aktivieren

BigQuery-Dataset erstellen

Erstellen Sie mit der Google Cloud Console ein Dataset, in dem die Daten gespeichert werden.

  1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

    BigQuery aufrufen

  2. Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.

  3. Maximieren Sie die Option Aktionen und klicken Sie auf Dataset erstellen.

  4. Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:

    1. Geben Sie unter Dataset-ID bigtable_bigquery_quickstart ein.
    2. Übernehmen Sie die verbleibenden Standardeinstellungen und klicken Sie auf Dataset erstellen.

Tabelle mit aktiviertem Änderungsstream erstellen

  1. Rufen Sie in der Google Cloud Console die Bigtable-Seite Instanzen auf.

    Zur Seite „VM-Instanzen“

  2. Klicken Sie auf die ID der Instanz, die Sie für diesen Schnellstart verwenden.

    Wenn keine Instanz verfügbar ist, erstellen Sie eine Instanz mit den Standardkonfigurationen in einer Region in Ihrer Nähe.

  3. Klicken Sie im linken Navigationsbereich auf Sicherungen.

  4. Klicken Sie auf Tabelle erstellen.

  5. Nennen Sie die Tabelle bigquery-changestream-quickstart.

  6. Fügen Sie eine Spaltenfamilie mit dem Namen cf hinzu.

  7. Wählen Sie Änderungsstream aktivieren aus.

  8. Klicken Sie auf Erstellen.

  9. Suchen Sie auf der Bigtable-Seite Tabellen nach Ihrer Tabelle bigquery-changestream-quickstart.

  10. Klicken Sie in der Spalte Änderungsstream auf Verbinden.

  11. Wählen Sie im Dialogfeld BigQuery aus.

  12. Klicken Sie auf Dataflow-Job erstellen.

  13. Geben Sie Ihre Parameterwerte in die Parameterfelder ein. Sie müssen keine optionalen Parameter angeben.

    1. Legen Sie die Bigtable-Anwendungsprofil-ID auf default fest.
    2. Legen Sie das BigQuery-Dataset auf bigtable_bigquery_quickstart fest.
  14. Klicken Sie auf Job ausführen.

  15. Warten Sie, bis der Jobstatus Starting oder Running lautet, bevor Sie fortfahren. Sobald der Job in die Warteschlange gestellt wurde, dauert es etwa 5 Minuten.

  16. Lassen Sie den Job in einem Tab geöffnet, damit Sie ihn beim Bereinigen Ihrer Ressourcen anhalten können.

Daten in Bigtable schreiben

  1. Schreiben Sie in Cloud Shell einige Zeilen in Bigtable, damit das Änderungsprotokoll Daten in BigQuery schreiben kann. Solange Sie die Daten schreiben, nachdem der Job erstellt wurde, werden die Änderungen angezeigt. Sie müssen nicht warten, bis der Jobstatus running wird.

    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user123 cf:col1=abc
    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user546 cf:col1=def
    cbt -instance=BIGTABLE_INSTANCE_ID -project=PROJECT_ID \
        set bigquery-changestream-quickstart user789 cf:col1=ghi
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die ID des von Ihnen verwendeten Projekts
    • BIGTABLE_INSTANCE_ID: die ID der Instanz, die die Tabelle bigquery-changestream-quickstart enthält

Änderungslogs in BigQuery ansehen

  1. Öffnen Sie in der Google Cloud Console die Seite BigQuery.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset bigtable_bigquery_quickstart.

  3. Klicken Sie auf die Tabelle bigquery-changestream-quickstart_changelog.

  4. Klicken Sie auf Vorschau, um das Änderungsprotokoll aufzurufen.

    Änderungsprotokollvorschau in BigQuery

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die auf dieser Seite verwendeten Ressourcen in Rechnung gestellt werden.

  1. Deaktivieren Sie den Änderungsstream für die Tabelle:

    gcloud bigtable instances tables update bigquery-changestream-quickstart \
    --project=PROJECT_ID --instance=BIGTABLE_INSTANCE_ID \
    --clear-change-stream-retention-period
    
  2. Löschen Sie die Tabelle bigquery-changestream-quickstart:

    cbt --instance=BIGTABLE_INSTANCE_ID --project=PROJECT_ID deletetable bigquery-changestream-quickstart
    
  3. Halten Sie die Änderungsstreampipeline an:

    1. Rufen Sie in der Google Cloud Console die Dataflow-Seite Jobs auf.

      Zu „Jobs“

    2. Wählen Sie den Streaming-Job aus der Jobliste aus.

    3. Klicken Sie im Navigationsbereich auf Beenden.

    4. Wählen Sie im Dialogfeld Job anhalten die Option Abbrechen aus und klicken Sie auf Job anhalten.

  4. Löschen Sie das BigQuery-Dataset:

    1. Rufen Sie in der Google Cloud Console die Seite „BigQuery“ auf.

      BigQuery aufrufen

    2. Suchen Sie im Bereich Explorer nach dem Dataset bigtable_bigquery_quickstart und klicken Sie darauf.

    3. Klicken Sie auf Löschen, geben Sie delete ein und klicken Sie zur Bestätigung auf Löschen.

  5. Optional: Löschen Sie die Instanz, wenn Sie eine neue für diese Kurzanleitung erstellt haben:

    cbt deleteinstance BIGTABLE_INSTANCE_ID
    

Nächste Schritte