Diese Seite wurde von der Cloud Translation API übersetzt.

Von Pub/Sub zu BigQuery streamen

In dieser Anleitung wird die Vorlage Pub/Sub-Abo zu BigQuery verwendet, um einen Dataflow-Vorlagenjob mithilfe der Google Cloud Console oder der Google Cloud CLI zu erstellen und auszuführen. Die Anleitung führt Sie durch ein Streaming-Pipeline-Beispiel, das JSON-codierte Nachrichten aus Pub/Sub liest und in eine BigQuery schreibt.

Pipelines für Streaminganalyse und Datenintegration verwenden Pub/Sub zum Aufnehmen und Verteilen von Daten. Mit Pub/Sub können Sie Systeme für Ereignisersteller und -nutzer erstellen, die als Publisher und Abonnenten bezeichnet werden. Publisher senden Ereignisse asynchron an den Pub/Sub-Dienst und Pub/Sub liefert die Ereignisse dann an alle Dienste, die darauf reagieren müssen.

Dataflow ist ein vollständig verwalteter Dienst zum Transformieren und Anreichern von Daten im Streammodus (Echtzeit) und im Batchmodus. Es bietet eine vereinfachte Pipeline-Entwicklungsumgebung, die das Apache Beam SDK verwendet, um eingehende Daten zu transformieren und dann die transformierten Daten auszugeben.

Der Vorteil dieses Workflows besteht darin, dass Sie UDFs verwenden können, um die Nachrichtendaten zu transformieren, bevor sie in BigQuery geschrieben werden.

Bevor Sie eine Dataflow-Pipeline für dieses Szenario ausführen, sollten Sie prüfen, ob ein Pub/Sub-BigQuery-Abo mit einer nutzerdefinierten Funktion Ihren Anforderungen entspricht.

Lernziele

Erstellen Sie ein Pub/Sub-Thema.
Erstellen Sie ein BigQuery-Dataset mit einer Tabelle und einem Schema.
Verwenden Sie eine von Google bereitgestellte Streamingvorlage, um Daten mit Dataflow aus Ihrem Pub/Sub-Abo zu BigQuery zu streamen.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Dataflow
Pub/Sub
Cloud Storage
BigQuery

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Google Cloud Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Nach Abschluss der in diesem Dokument beschriebenen Aufgaben können Sie weitere Kosten vermeiden, indem Sie die erstellten Ressourcen löschen. Weitere Informationen finden Sie unter Bereinigen.

Hinweise

In diesem Abschnitt erfahren Sie, wie Sie ein Projekt auswählen, APIs aktivieren und Ihrem Nutzerkonto und dem Worker-Dienstkonto die entsprechenden Rollen zuweisen.

Console

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Compute Engine, Dataflow, Cloud Logging, BigQuery, Pub/Sub, Cloud Storage, Resource Manager APIs.

Enable the APIs

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Compute Engine, Dataflow, Cloud Logging, BigQuery, Pub/Sub, Cloud Storage, Resource Manager APIs.

Enable the APIs

Damit Sie die Schritte in dieser Anleitung ausführen können, muss Ihr Nutzerkonto die Rolle Dienstkontonutzer haben. Das Compute Engine-Standarddienstkonto muss die folgenden Rollen haben: Dataflow Worker, Dataflow Admin, Pub/Sub Editor, Storage Object Admin, and BigQuery Data Editor. So fügen Sie die erforderlichen Rollen in der Google Cloud Konsole hinzu:
1. Rufen Sie in der Google Cloud Console die Seite IAM auf.
  IAM aufrufen
2. Wählen Sie Ihr Projekt aus.
3. Klicken Sie in der Zeile mit Ihrem Nutzerkonto auf Hauptkonto bearbeiten und dann auf Weitere Rolle hinzufügen.
4. Wählen Sie in der Drop-down-Liste die Rolle Service Account User aus.
5. Klicken Sie in der Zeile mit dem Compute Engine-Standarddienstkonto auf Hauptkonto bearbeiten und dann auf Weitere Rolle hinzufügen.
6. Wählen Sie aus der Drop-down-Liste die Rolle Dataflow-Worker aus.
7. Wiederholen Sie den Vorgang für die Rollen Dataflow-Administrator, Pub/Sub-Bearbeiter, Storage-Objekt-Administrator und BigQuery-Dateneditor und klicken Sie dann auf Speichern.
  
  Weitere Informationen zum Zuweisen von Rollen finden Sie unter IAM-Rolle über die Konsole zuweisen.

gcloud

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Compute Engine, Dataflow, Cloud Logging, BigQuery, Pub/Sub, Cloud Storage, Resource Manager APIs.

Enable the APIs

Install the Google Cloud CLI.

Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Compute Engine, Dataflow, Cloud Logging, BigQuery, Pub/Sub, Cloud Storage, Resource Manager APIs.

Enable the APIs

Install the Google Cloud CLI.

Wenn Sie einen externen Identitätsanbieter (IdP) verwenden, müssen Sie sich zuerst mit Ihrer föderierten Identität in der gcloud CLI anmelden.

Führen Sie folgenden Befehl aus, um die gcloud CLI zu initialisieren:

gcloud init

Weisen Sie Ihrem Compute Engine-Standarddienstkonto Rollen zu. Führen Sie den folgenden Befehl für jede der folgenden IAM-Rollen einmal aus:
- roles/dataflow.admin
- roles/dataflow.worker
- roles/storage.admin
- roles/pubsub.editor
- roles/bigquery.dataEditor
```
gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com" --role=SERVICE_ACCOUNT_ROLE
```
Ersetzen Sie Folgendes:
- PROJECT_ID: Ihre Projekt-ID.
- PROJECT_NUMBER: Ihre Projektnummer. Verwenden Sie den Befehl gcloud projects describe, um Ihre Projektnummer zu ermitteln.
- SERVICE_ACCOUNT_ROLE: Jede einzelne Rolle.

Cloud Storage-Bucket erstellen

Erstellen Sie zuerst einen Cloud Storage-Bucket mit der Google Cloud Console oder der Google Cloud CLI. Die Dataflow-Pipeline verwendet diesen Bucket als temporären Speicherort.

Console

Wechseln Sie in der Google Cloud -Console unter „Cloud Storage“ zur Seite Buckets.

Buckets aufrufen
Klicken Sie auf Erstellen.
Geben Sie auf der Seite Bucket erstellen bei Bucket benennen einen Namen ein, der die Anforderungen für Bucket-Namen erfüllt. Cloud Storage-Bucket-Namen müssen global einmalig sein. Wählen Sie die anderen Optionen nicht aus.
Klicken Sie auf Erstellen.

gcloud

Führen Sie den Befehl gcloud storage buckets create aus:

gcloud storage buckets create gs://BUCKET_NAME

Ersetzen Sie BUCKET_NAME durch einen Namen für den Cloud Storage-Bucket, der den Anforderungen für Bucket-Namen entspricht. Cloud Storage-Bucket-Namen müssen global einmalig sein.

Pub/Sub-Thema und -Abo erstellen

Erstellen Sie ein Pub/Sub-Thema und dann ein Abo für dieses Thema.

Console

So erstellen Sie ein Thema:

Rufen Sie in der Google Cloud Console die Pub/Sub-Seite Themen auf.

Themen aufrufen
Klicken Sie auf Thema erstellen.
Geben Sie im Feld Themen-ID eine ID für das Thema ein. Weitere Informationen zum Benennen eines Themas finden Sie unter Richtlinien für die Benennung eines Themas oder eines Abos.
Behalten Sie die Option Standardabo hinzufügen bei. Wählen Sie die anderen Optionen nicht aus.
Klicken Sie auf Erstellen.
Auf der Seite mit den Themendetails wird der Name des erstellten Abos unter Abo-ID aufgeführt. Notieren Sie sich diesen Wert für spätere Schritte.

gcloud

Führen Sie den Befehl gcloud pubsub topics create aus, um ein Thema zu erstellen. Informationen zum Benennen eines Abos finden Sie unter Richtlinien für die Benennung eines Themas oder Abos.

gcloud pubsub topics create TOPIC_ID

Ersetzen Sie TOPIC_ID durch einen Namen für Ihr Pub/Sub-Thema.

Führen Sie den Befehl gcloud pubsub subscriptions create aus, um ein Abo für Ihr Thema zu erstellen:

gcloud pubsub subscriptions create --topic TOPIC_ID SUBSCRIPTION_ID

Ersetzen Sie SUBSCRIPTION_ID durch einen Namen für Ihr Pub/Sub-Abo.

BigQuery-Tabelle erstellen

In diesem Schritt erstellen Sie eine BigQuery-Tabelle mit dem folgenden Schema:

Spaltenname	Datentyp
`name`	`STRING`
`customer_id`	`INTEGER`

Wenn Sie noch kein BigQuery-Dataset haben, erstellen Sie zuerst eines. Weitere Informationen finden Sie unter Datasets erstellen. Erstellen Sie dann eine neue leere Tabelle:

Console

Rufen Sie die Seite BigQuery auf.

BigQuery aufrufen
Maximieren Sie im Bereich Explorer Ihr Projekt und wählen Sie dann ein Dataset aus.
Klicken Sie im Abschnitt Dataset-Informationen auf Tabelle erstellen.
Wählen Sie in der Liste Tabelle erstellen aus die Option Leere Tabelle aus.
Geben Sie im Feld Tabelle den Namen der Tabelle ein.
Klicken Sie im Abschnitt Schema auf Als Text bearbeiten.
Fügen Sie die folgende Schemadefinition ein:
```
name:STRING,
customer_id:INTEGER
```
Klicken Sie auf Tabelle erstellen.

gcloud

Führen Sie den Befehl bq mk aus.

bq mk --table \
  PROJECT_ID:DATASET_NAME.TABLE_NAME \
  name:STRING,customer_id:INTEGER

Ersetzen Sie Folgendes:

PROJECT_ID: Ihre Projekt-ID
DATASET_NAME: der Name des Datasets
TABLE_NAME: Der Name der Tabelle, die erstellt werden soll

Pipeline ausführen

Führen Sie eine Streaming-Pipeline mit der von Google bereitgestellten Vorlage Pub/Sub-Abo zu BigQuery aus. Die Pipeline erhält eingehende Daten aus dem Pub/Sub-Thema und gibt die Daten in Ihr BigQuery-Dataset aus.

Console

Rufen Sie in der Google Cloud Console die Dataflow-Seite Jobs auf.

ZU JOBS
Klicken Sie auf Job aus Vorlage erstellen.
Geben Sie einen Jobnamen für Ihren Dataflow-Job ein.
Wählen Sie unter Regionaler Endpunkt eine Region für Ihren Dataflow-Job aus.
Wählen Sie für die Dataflow-Vorlage die Vorlage Pub/Sub-Abo für BigQuery aus.
Wählen Sie für BigQuery-Ausgabetabelle die Option Durchsuchen aus und wählen Sie Ihre BigQuery-Tabelle aus.
Wählen Sie in der Liste Pub/Sub-Eingabeabo das Pub/Sub-Abo aus.
Geben Sie unter Temporärer Speicherort Folgendes ein:
```
gs://BUCKET_NAME/temp/
```
Ersetzen Sie BUCKET_NAME dabei durch den Namen des Cloud Storage-Buckets. Im Ordner temp werden temporäre Dateien für die Dataflow-Jobs gespeichert.
Klicken Sie auf Job ausführen.

gcloud

Führen Sie die Vorlage in Ihrer Shell oder Ihrem Terminal mit dem Befehl gcloud dataflow jobs run aus.

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-DATAFLOW_REGION/latest/PubSub_Subscription_to_BigQuery \
    --region DATAFLOW_REGION \
    --staging-location gs://BUCKET_NAME/temp \
    --parameters \
inputSubscription=projects/PROJECT_ID/subscriptions/SUBSCRIPTION_ID,\
outputTableSpec=PROJECT_ID:DATASET_NAME.TABLE_NAME

Ersetzen Sie die folgenden Variablen:

JOB_NAME: Ein Name für den Job.
DATAFLOW_REGION: eine Region für den Job
PROJECT_ID: Name Ihres Google Cloud Projekts
SUBSCRIPTION_ID: der Name Ihres Pub/Sub-Abos
DATASET_NAME: der Name Ihres BigQuery-Datasets
TABLE_NAME: der Name Ihrer BigQuery-Tabelle

Nachrichten in Pub/Sub veröffentlichen

Nachdem der Dataflow-Job gestartet wurde, können Sie Nachrichten in Pub/Sub veröffentlichen. Die Pipeline schreibt sie dann in BigQuery.

Console

Rufen Sie in der Google Cloud Console die Seite Pub/Sub > Themen auf.

Themen aufrufen
Klicken Sie in der Themenliste auf den Namen Ihres Themas.
Klicken Sie auf Nachrichten.
Klicken Sie auf Mitteilungen veröffentlichen.
Geben Sie für Anzahl der Nachrichten den Wert 10 ein.
Geben Sie als Nachrichtentext {"name": "Alice", "customer_id": 1} ein.
Klicken Sie auf Veröffentlichen.

gcloud

Verwenden Sie den Befehl gcloud pubsub topics publish, um Nachrichten für Ihr Thema zu veröffentlichen.

for run in {1..10}; do
  gcloud pubsub topics publish TOPIC_ID --message='{"name": "Alice", "customer_id": 1}'
done

Ersetzen Sie TOPIC_ID durch den Namen Ihres Themas.

Ergebnisse ansehen

Sehen Sie sich die Daten an, die in Ihre BigQuery-Tabelle geschrieben wurden. Es kann bis zu einer Minute dauern, bis Daten in der Tabelle angezeigt werden.

Console

Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Zur Seite „BigQuery“
Führen Sie im Abfrageeditor folgende Abfrage aus:
```
SELECT * FROM `PROJECT_ID.DATASET_NAME.TABLE_NAME`
LIMIT 1000
```
Ersetzen Sie die folgenden Variablen:
- PROJECT_ID: Name Ihres Google CloudProjekts
- DATASET_NAME: der Name Ihres BigQuery-Datasets
- TABLE_NAME: der Name Ihrer BigQuery-Tabelle

gcloud

Prüfen Sie die Ergebnisse in BigQuery mit der folgenden Abfrage:

bq query --use_legacy_sql=false 'SELECT * FROM `PROJECT_ID.DATASET_NAME.TABLE_NAME`'

Ersetzen Sie die folgenden Variablen:

PROJECT_ID: Name Ihres Google CloudProjekts
DATASET_NAME: der Name Ihres BigQuery-Datasets
TABLE_NAME: der Name Ihrer BigQuery-Tabelle

UDF zum Transformieren der Daten verwenden

In dieser Anleitung wird davon ausgegangen, dass die Pub/Sub-Nachrichten als JSON formatiert sind und dass das BigQuery-Tabellenschema mit den JSON-Daten übereinstimmt.

Optional können Sie eine benutzerdefinierte JavaScript-Funktion (User-Defined Function, UDF) bereitstellen, die die Daten transformiert, bevor sie in BigQuery geschrieben werden. Die UDF kann eine zusätzliche Verarbeitung ausführen, z. B. filtern, personenbezogene Daten entfernen oder die Daten mit zusätzlichen Feldern anreichern.

Weitere Informationen finden Sie unter Benutzerdefinierte Funktionen für Dataflow-Vorlagen erstellen.

Tabelle für unzustellbare Nachrichten verwenden

Während der Job ausgeführt wird, kann es vorkommen, dass die Pipeline einzelne Nachrichten nicht in BigQuery schreiben kann. Im Folgenden finden Sie mögliche Fehler:

Serialisierungsfehler, einschließlich falsch formatierter JSON-Daten.
Typkonvertierungsfehler, die durch eine nicht übereinstimmende Tabelle und die JSON-Daten verursacht wurden.
Zusätzliche Felder in den JSON-Daten, die im Tabellenschema nicht vorhanden sind.

Die Pipeline schreibt diese Fehler in eine Tabelle für unzustellbare Nachrichten in BigQuery. Standardmäßig erstellt die Pipeline automatisch eine Tabelle für unzustellbare Nachrichten mit dem Namen TABLE_NAME_error_records, wobei TABLE_NAME der Name der Ausgabetabelle ist. Wenn Sie einen anderen Namen verwenden möchten, legen Sie den Vorlagenparameter outputDeadletterTable fest.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

Am einfachsten vermeiden Sie weitere Kosten, wenn Sie das für die Anleitung erstellte Projekt Google Cloud löschen.

Console

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

gcloud

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Einzelne Ressourcen löschen

Wenn Sie das Projekt später wiederverwenden möchten, können Sie es behalten, aber die Ressourcen löschen, die Sie während der Anleitung erstellt haben.

Dataflow-Pipeline anhalten

Console

Rufen Sie in der Google Cloud Console die Dataflow-Seite Jobs auf.

ZU JOBS
Klicken Sie auf den Job, den Sie beenden möchten.

Zum Beeinden eines Jobs muss der Status des Jobs Wird ausgeführt sein.
Klicken Sie auf der Seite mit den Jobdetails auf Beenden.
Klicken Sie auf Abbrechen.
Klicken Sie auf Job anhalten, um die Auswahl zu bestätigen.

gcloud

Verwenden Sie den Befehl gcloud dataflow jobs, um Ihren Dataflow-Job abzubrechen.

gcloud dataflow jobs list \
  --filter 'NAME=JOB_NAME AND STATE=Running' \
  --format 'value(JOB_ID)' \
  --region "DATAFLOW_REGION" \
  | xargs gcloud dataflow jobs cancel --region "DATAFLOW_REGION"

Projektressourcen bereinigen Google Cloud

Console

Löschen Sie das Pub/Sub-Thema und -Abo.
1. Rufen Sie in der Google Cloud Console die Seite Pub/Sub-Themen auf.
  
  Themen aufrufen
2. Wählen Sie das von Ihnen erstellte Thema aus.
3. Klicken Sie auf Löschen, um das Thema endgültig zu löschen.
4. Rufen Sie in der Google Cloud Console die Seite Pub/Sub-Abos auf.
  
  Zu den Abos
5. Wählen Sie das mit Ihrem Thema erstellte Abo aus.
6. Klicken Sie auf Löschen, um das Abo endgültig zu löschen.
Löschen Sie die BigQuery-Tabelle und das Dataset.
1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
  
  BigQuery aufrufen
2. Maximieren Sie im Bereich Explorer Ihr Projekt.
3. Klicken Sie neben dem Dataset, das Sie löschen möchten, auf Aktionen ansehen und dann auf Löschen.
Löschen Sie den Cloud Storage-Bucket.
1. Wechseln Sie in der Google Cloud -Console unter „Cloud Storage“ zur Seite Buckets.
  
  Buckets aufrufen
2. Wählen Sie den Bucket aus, den Sie löschen möchten, klicken Sie auf Löschen und folgen Sie der Anleitung.

gcloud

Verwenden Sie die Befehle gcloud pubsub subscriptions delete und gcloud pubsub topics delete, um das Pub/Sub-Abo und -Thema zu löschen.
```
gcloud pubsub subscriptions delete SUBSCRIPTION_ID
gcloud pubsub topics delete TOPIC_ID
```
Verwenden Sie zum Löschen der BigQuery-Tabelle den Befehl bq rm.
```
bq rm -f -t PROJECT_ID:tutorial_dataset.tutorial
```
Löschen Sie das BigQuery-Dataset. Das Dataset allein verursacht keine Gebühren.

Achtung: Mit dem folgenden Befehl werden auch alle Tabellen im Dataset gelöscht. Die Tabellen und Daten können nicht wiederhergestellt werden.
```
bq rm -r -f -d PROJECT_ID:tutorial_dataset
```
Verwenden Sie den Befehl gcloud storage rm, um den Cloud Storage-Bucket und seine Objekte zu löschen. Für den Bucket fallen keine Gebühren an.
```
gcloud storage rm gs://BUCKET_NAME --recursive
```

Anmeldedaten entfernen

Console

Wenn Sie Ihr Projekt beibehalten, widerrufen Sie die Rollen, die Sie dem Compute Engine-Standarddienstkonto zugewiesen haben.

Rufen Sie in der Google Cloud Console die Seite IAM auf.

IAM aufrufen

Wählen Sie ein Projekt, einen Ordner oder eine Organisation aus.
Suchen Sie die Zeile mit dem Hauptkonto, dessen Zugriff Sie widerrufen möchten. Klicken Sie in dieser Zeile auf Hauptkonto bearbeiten.
Klicken Sie für alle Rollen, die entzogen werden sollen, auf Löschen und dann auf Speichern.

gcloud

Wenn Sie Ihr Projekt beibehalten, widerrufen Sie die Rollen, die Sie dem Compute Engine-Standarddienstkonto zugewiesen haben. Führen Sie den folgenden Befehl für jede der folgenden IAM-Rollen einmal aus:
- roles/dataflow.admin
- roles/dataflow.worker
- roles/storage.admin
- roles/pubsub.editor
- roles/bigquery.dataEditor
```
  gcloud projects remove-iam-policy-binding <var>PROJECT_ID</var> \
  --member=serviceAccount:<var>PROJECT_NUMBER</var>-compute@developer.gserviceaccount.com \
  --role=<var>ROLE</var>
```
Optional: Revoke the authentication credentials that you created, and delete the local credential file.
```
gcloud auth application-default revoke
```
Optional: Revoke credentials from the gcloud CLI.
```
gcloud auth revoke
```

Nächste Schritte

Dataflow-Vorlage mit UDFs erweitern
Weitere Informationen zur Verwendung von Dataflow-Vorlagen
Alle von Google bereitgestellten Vorlagen
Verwendung von Pub/Sub zum Erstellen und Verwenden von Themen sowie zum Erstellen eines Pull-Abos
Datasets mit BigQuery erstellen
Weitere Informationen zu Pub/Sub-Abos
Referenzarchitekturen, Diagramme und Best Practices zu Google Cloud kennenlernen. Weitere Informationen zu Cloud Architecture Center

Von Pub/Sub zu BigQuery streamen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Lernziele

Kosten

Hinweise

Console

gcloud

Cloud Storage-Bucket erstellen

Console

gcloud

Pub/Sub-Thema und -Abo erstellen

Console

gcloud

BigQuery-Tabelle erstellen

Console

gcloud

Pipeline ausführen

Console

gcloud

Nachrichten in Pub/Sub veröffentlichen

Console

gcloud

Ergebnisse ansehen

Console

gcloud

UDF zum Transformieren der Daten verwenden

Tabelle für unzustellbare Nachrichten verwenden

Bereinigen

Projekt löschen

Console

gcloud

Einzelne Ressourcen löschen

Dataflow-Pipeline anhalten

Console

gcloud

Projektressourcen bereinigen Google Cloud

Console

gcloud

Anmeldedaten entfernen

Console

gcloud

Nächste Schritte

Von Pub/Sub zu BigQuery streamen