WordCount 模板是一种批处理流水线,它可从 Cloud Storage 读取文本,将文本行标记化为一个个的词,并对每个词进行词频计数。如需详细了解 WordCount,请参阅 WordCount 示例流水线。
如果 Cloud Storage 存储桶位于服务边界外部,请创建一条允许访问该存储桶的出站流量规则。
模板参数
参数 | 说明 |
---|---|
inputFile |
Cloud Storage 输入文件的路径。 |
outputFile |
Cloud Storage 输出文件的路径和前缀。 |
运行 WordCount 模板
控制台
- 转到 Dataflow 基于模板创建作业页面。 转到“基于模板创建作业”
- 在作业名称字段中,输入唯一的作业名称。
- 可选:对于区域性端点,从下拉菜单中选择一个值。默认区域为
us-central1
。如需查看可以在其中运行 Dataflow 作业的区域列表,请参阅 Dataflow 位置。
- 从 Dataflow 模板下拉菜单中,选择 the WordCount template。
- 在提供的参数字段中,输入您的参数值。
- 点击运行作业。
gcloud
在 shell 或终端中,运行模板:
gcloud dataflow jobs run JOB_NAME \\
--gcs-location gs://dataflow-templates/latest/Word_Count \\
--region REGION_NAME \\
--parameters \\
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\\
output=gs://BUCKET_NAME/output/my_output
请替换以下内容:
JOB_NAME
:您选择的唯一性作业名称REGION_NAME
:要在其中部署 Dataflow 作业的区域,例如us-central1
BUCKET_NAME
:Cloud Storage 存储桶的名称
API
如需使用 REST API 来运行模板,请发送 HTTP POST 请求。如需详细了解 API 及其授权范围,请参阅 projects.templates.launch
。
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
"jobName": "JOB_NAME",
"parameters": {
"inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
"output": "gs://BUCKET_NAME/output/my_output"
},
"environment": { "zone": "us-central1-f" }
}
请替换以下内容:
PROJECT_ID
:您要在其中运行 Dataflow 作业的 Google Cloud 项目的 ID
JOB_NAME
:您选择的唯一性作业名称LOCATION
:要在其中部署 Dataflow 作业的区域,例如us-central1
BUCKET_NAME
:Cloud Storage 存储桶的名称