Google 提供了一组开源 Dataflow 模板。如需了解有关模板的一般信息,请参阅概览页面。首先,请使用以下部分中介绍的 WordCount 模板。查看其他 Google 提供的模板:
流处理模板 - 用于连续处理数据的模板:
- Pub/Sub 订阅到 BigQuery
- Pub/Sub Topic to BigQuery
- Pub/Sub to Pub/Sub
- Pub/Sub to Splunk
- Pub/Sub 到 Cloud Storage Avro
- Pub/Sub 到 Cloud Storage 文本
- Cloud Storage Text to BigQuery (Stream)
- Cloud Storage Text to Pub/Sub (Stream)
- Data Masking/Tokenization using Cloud DLP from Cloud Storage to BigQuery (Stream)
- Change Data Capture to BigQuery (Stream)
- Apache Kafka to BigQuery
批处理模板 - 用于批量处理数据的模板:
- BigQuery to Cloud Storage TFRecords
- Cloud Bigtable to Cloud Storage Avro
- Cloud Bigtable to Cloud Storage SequenceFiles
- Datastore to Cloud Storage Text
- Cloud Spanner to Cloud Storage Avro
- Cloud Spanner to Cloud Storage Text
- Cloud Storage Avro to Cloud Bigtable
- Cloud Storage Avro to Cloud Spanner
- Cloud Storage SequenceFiles to Cloud Bigtable
- Cloud Storage Text to BigQuery
- Cloud Storage Text to Datastore
- Cloud Storage 文本到 Pub/Sub(批处理)
- Cloud Storage Text to Cloud Spanner
- Java Database Connectivity (JDBC) to BigQuery
- Apache Cassandra to Cloud Bigtable
- Apache Hive to BigQuery
- Apache Cassandra to Cloud Bigtable
- 文件格式转换
实用程序模板
- Bulk Compress Cloud Storage Files
- Bulk Decompress Cloud Storage Files
- Datastore Bulk Delete
- Streaming Data Generator to Pub/Sub
字数统计
WordCount 模板是一种批处理管道,它可从 Cloud Storage 读取文本,将文本行标记化为单个词,并对每个词进行词频计数。如需详细了解 WordCount,请参阅 WordCount 示例流水线。
模板参数
参数 | 说明 |
---|---|
inputFile |
Cloud Storage 输入文件路径。 |
output |
Cloud Storage 输出文件路径和前缀。 |
运行 WordCount 模板
控制台
通过 Google Cloud Console 运行- 转到 Cloud Console 中的 Dataflow 页面。 转到 Dataflow 页面
- 点击基于模板创建作业。
- 从 Dataflow 模板下拉菜单中选择 the WordCount template。
- 在作业名称字段中输入作业名称。
- 在提供的参数字段中输入参数值。
- 点击运行作业。

GCLOUD
通过gcloud
命令行工具运行
注意:如需使用 gcloud
命令行工具运行模板,您必须拥有 Cloud SDK 138.0.0 或更高版本。
运行此模板时,您需要使用模板的 Cloud Storage 路径:
gs://dataflow-templates/latest/Word_Count
您必须在此示例中替换以下值:
- 将 JOB_NAME 替换为您选择的作业名称。
- 将 YOUR_BUCKET_NAME 替换为 Cloud Storage 存储分区的名称。
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates/latest/Word_Count \ --parameters \ inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\ output=gs://YOUR_BUCKET_NAME/output/my_output
API
通过 REST API 运行运行此模板时,您需要使用模板的 Cloud Storage 路径:
gs://dataflow-templates/latest/Word_Count
如需使用 REST API 请求运行此模板,请发送带有项目 ID 的 HTTP POST 请求。此请求需要获得授权。
您必须在此示例中替换以下值:
- 将 YOUR_PROJECT_ID 替换为您的项目 ID。
- 将 JOB_NAME 替换为您选择的作业名称。
- 将 YOUR_BUCKET_NAME 替换为 Cloud Storage 存储分区的名称。
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count { "jobName": "JOB_NAME", "parameters": { "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt", "output": "gs://YOUR_BUCKET_NAME/output/my_output" }, "environment": { "zone": "us-central1-f" } }