开始使用 Google 提供的模板

Google 提供了一组开源 Dataflow 模板。如需了解有关模板的一般信息,请参阅概览页面。首先,请使用以下部分中介绍的 WordCount 模板。查看其他 Google 提供的模板:

流处理模板 - 用于连续处理数据的模板:

批处理模板 - 用于批量处理数据的模板:

实用程序模板

字数统计

WordCount 模板是一种批处理管道,它可从 Cloud Storage 读取文本,将文本行标记化为单个词,并对每个词进行词频计数。如需详细了解 WordCount,请参阅 WordCount 示例流水线

模板参数

参数 说明
inputFile Cloud Storage 输入文件路径。
output Cloud Storage 输出文件路径和前缀。

运行 WordCount 模板

控制台

通过 Google Cloud Console 运行
  1. 转到 Cloud Console 中的 Dataflow 页面。
  2. 转到 Dataflow 页面
  3. 点击基于模板创建作业
  4. Cloud Platform Console 的“基于模板创建作业”按钮
  5. Dataflow 模板下拉菜单中选择 the WordCount template。
  6. 作业名称字段中输入作业名称。
  7. 在提供的参数字段中输入参数值。
  8. 点击运行作业

GCLOUD

通过 gcloud 命令行工具运行

注意:如需使用 gcloud 命令行工具运行模板,您必须拥有 Cloud SDK 138.0.0 或更高版本。

运行此模板时,您需要使用模板的 Cloud Storage 路径:

gs://dataflow-templates/latest/Word_Count

您必须在此示例中替换以下值:

  • JOB_NAME 替换为您选择的作业名称。
  • YOUR_BUCKET_NAME 替换为 Cloud Storage 存储分区的名称。
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
output=gs://YOUR_BUCKET_NAME/output/my_output

API

通过 REST API 运行

运行此模板时,您需要使用模板的 Cloud Storage 路径:

gs://dataflow-templates/latest/Word_Count

如需使用 REST API 请求运行此模板,请发送带有项目 ID 的 HTTP POST 请求。此请求需要获得授权

您必须在此示例中替换以下值:

  • YOUR_PROJECT_ID 替换为您的项目 ID。
  • JOB_NAME 替换为您选择的作业名称。
  • YOUR_BUCKET_NAME 替换为 Cloud Storage 存储分区的名称。
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://YOUR_BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}