开始使用 Google 提供的模板

Google 提供了一组开源 Dataflow 模板。有关模板的一般信息,请参阅概览页面。首先,请使用 WordCount 模板。查看其他 Google 提供的模板:

流处理模板 - 用于连续处理数据的模板:

批处理模板 - 用于批量处理数据的模板:

实用程序模板

字数统计

WordCount 模板是一种批处理管道,它可从 Cloud Storage 读取文本,将文本行标记化为单个词,并对每个词进行词频计数。如需详细了解 WordCount,请参阅 WordCount 示例流水线

模板参数

参数 说明
inputFile Cloud Storage 输入文件的路径。
output Cloud Storage 输出文件的路径和前缀。

运行 WordCount 模板

控制台

使用 Google Cloud Console 运行。
  1. 转到 Cloud Console 中的 Dataflow 页面。
  2. 转到 Dataflow 页面
  3. 点击 基于模板创建作业
  4. Cloud Console 的“基于模板创建作业”按钮
  5. Dataflow 模板下拉菜单中选择 the WordCount template。
  6. 作业名称字段中输入作业名称。
  7. 在提供的参数字段中输入参数值。
  8. 点击运行作业

gcloud

使用 gcloud 命令行工具运行。

运行此模板时,您需要模板的 Cloud Storage 路径:

gs://dataflow-templates/latest/Word_Count

运行以下命令:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
    output=gs://BUCKET_NAME/output/my_output

请替换以下内容:

  • JOB_NAME:您选择的作业名称
  • BUCKET_NAME:Cloud Storage 存储分区的名称。

API

使用 REST API 运行。

运行此模板时,您需要模板的 Cloud Storage 路径:

gs://dataflow-templates/latest/Word_Count

如需使用 REST API 请求运行此模板,请发送带有项目 ID 的 HTTP POST 请求。此请求需要授权

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

请替换以下内容:

  • PROJECT_ID:您的项目 ID
  • JOB_NAME:您选择的作业名称
  • BUCKET_NAME:Cloud Storage 存储分区的名称。