Pub/Sub Topic to Text Files on Cloud Storage

Pub/Sub to Cloud Storage Text 模板是一种流处理流水线，可从 Pub/Sub 主题读取记录并将其保存为一系列文本格式的 Cloud Storage 文件。使用此模板，您可以快速地保存 Pub/Sub 中的数据以留待将来使用。默认情况下，此模板每 5 分钟生成一个新文件。

流水线要求

Pub/Sub 主题必须已存在才能执行此流水线。
发布到主题的消息必须采用文本格式。
发布到主题的消息不得包含任何换行符。请注意，每条 Pub/Sub 消息在输出文件中均会保存为一行。

模板参数

必需参数

outputDirectory：用于写入输出文件的路径和文件名前缀。例如 gs://bucket-name/path/。该值必须以斜杠结尾。
outputFilenamePrefix：要在各窗口文件上放置的前缀。例如 output-。默认值：output。

可选参数

inputTopic：要从中读取输入的 Pub/Sub 主题。主题名称应采用 projects/<PROJECT_ID>/topics/<TOPIC_NAME> 格式。
userTempLocation：临时文件输出到的用户提供的目录。必须以斜杠结尾。
outputFilenameSuffix：要在各窗口文件上放置的后缀。通常是文件扩展名，例如 .txt 或 .csv。默认值为空。
outputShardTemplate：分片模板定义每个窗口文件的动态部分。默认情况下，该流水线使用单一分片输出到各窗口内的文件系统。因此，每个窗口的所有数据都会输出到单个文件中。outputShardTemplate 默认为 to W-P-SS-of-NN，其中 W 是窗口日期范围，P 是窗格信息，S 是分片编号，而 N 是分片数。对于单个文件，outputShardTemplate 的 SS-of-NN 部分为 00-of-01。
yearPattern：用于设置年份格式的模式。必须是 y 或 Y 中的一个或多个。大小写在年份中没有区别。您可以选择用非字母数字字符或目录字符 (/) 将格式括起来。默认值为 YYYY。
monthPattern：用于设置月份格式的模式。必须是一个或多个 M 字符。您可以选择用非字母数字字符或目录字符 (/) 将格式括起来。默认值为 MM。
dayPattern：用于设置某天的模式。必须是一个或多个 d（表示月份中的某一天）或 D（表示年中的某一天）。您可以选择用非字母数字字符或目录字符 (/) 将格式括起来。默认值为 dd。
hourPattern：用于设置小时格式的模式。必须是一个或多个 H 字符。您可以选择用非字母数字字符或目录字符 (/) 将格式括起来。默认值为 HH。
minutePattern：用于设置分钟格式的模式。必须是一个或多个 m 字符。您可以选择用非字母数字字符或目录字符 (/) 将格式括起来。默认值为 mm。

运行模板

控制台

转到 Dataflow 基于模板创建作业页面。

转到“基于模板创建作业”

在作业名称字段中，输入唯一的作业名称。
可选：对于区域性端点，从下拉菜单中选择一个值。默认区域为 us-central1。
如需查看可以在其中运行 Dataflow 作业的区域列表，请参阅 Dataflow 位置。
从 Dataflow 模板下拉菜单中，选择 the Pub/Sub to Text Files on Cloud Storage template。
在提供的参数字段中，输入您的参数值。
可选：如需从“正好一次”处理切换到“至少一次”流处理模式，请选择至少一次。
点击运行作业。

gcloud

在 shell 或终端中，运行模板：

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Cloud_PubSub_to_GCS_Text \
    --region REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
inputTopic=projects/PROJECT_ID/topics/TOPIC_NAME,\
outputDirectory=gs://BUCKET_NAME/output/,\
outputFilenamePrefix=output-,\
outputFilenameSuffix=.txt

替换以下内容：

JOB_NAME：您选择的唯一性作业名称
REGION_NAME：要在其中部署 Dataflow 作业的区域，例如 us-central1
VERSION：您要使用的模板的版本
您可使用以下值：
- latest，以使用模板的最新版本，该模板在存储桶的未标示日期的父文件夹 (gs://dataflow-templates-REGION_NAME/latest/) 中可用
- 版本名称（如 2023-09-12-00_RC00），以使用模板的特定版本，该版本嵌套在存储桶的相应日期父文件夹 (gs://dataflow-templates-REGION_NAME/) 中
注意：最新版模板可能会随着重大更改而更新。为了防止这些重大更改影响您的生产工作流程，生产环境应使用有最近标示日期的父文件夹中保存的模板。
STAGING_LOCATION：暂存本地文件的位置（例如 gs://your-bucket/staging）
TOPIC_NAME：您的 Pub/Sub 主题名称
BUCKET_NAME - Cloud Storage 存储桶的名称。

API

如需使用 REST API 来运行模板，请发送 HTTP POST 请求。如需详细了解 API 及其授权范围，请参阅 projects.templates.launch。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_PubSub_to_GCS_Text
{
   "jobName": "JOB_NAME",
   "environment": {
       "ipConfiguration": "WORKER_IP_UNSPECIFIED",
       "additionalExperiments": []
    },
   "parameters": {
       "inputTopic": "projects/PROJECT_ID/topics/TOPIC_NAME"
       "outputDirectory": "gs://BUCKET_NAME/output/",
       "outputFilenamePrefix": "output-",
       "outputFilenameSuffix": ".txt",
   }
}