Pub/Sub to BigQuery 模板

Pub/Sub to BigQuery 模板是一种流处理流水线，可从 Pub/Sub 读取 JSON 格式的消息并将其写入 BigQuery 表中。或者，您可以提供用 JavaScript 编写的用户定义的函数 (UDF) 来处理收到的消息。

在为此场景运行 Dataflow 流水线之前，请考虑是否使用 Pub/Sub BigQuery 订阅和 UDF 满足您的要求。

流水线要求

BigQuery 表必须存在且具有架构。
Pub/Sub 消息数据必须使用 JSON 格式，或者您必须提供将消息数据转换为 JSON 的 UDF。JSON 数据必须与 BigQuery 表架构匹配。例如，如果 JSON 载荷的格式为 {"k1":"v1", "k2":"v2"}，则 BigQuery 表必须具有两个名为 k1 和 k2 的字符串列。
指定 inputSubscription 或 inputTopic 参数，但不能同时指定这两者。

模板参数

必需参数

outputTableSpec：要写入的 BigQuery 表，格式为 PROJECT_ID:DATASET_NAME.TABLE_NAME。

可选参数

inputTopic：要读取的 Pub/Sub 主题，格式为 projects/<PROJECT_ID>/topics/<TOPIC_NAME>。
inputSubscription：要读取的 Pub/Sub 订阅，格式为 projects/<PROJECT_ID>/subscriptions/<SUBCRIPTION_NAME>。
outputDeadletterTable：未能到达输出表的消息的 BigQuery 表，格式为 PROJECT_ID:DATASET_NAME.TABLE_NAME。如果该表不存在，则系统会在流水线运行时创建该表。如果您未指定此参数，则系统会改为使用值 OUTPUT_TABLE_SPEC_error_records。
useStorageWriteApiAtLeastOnce：使用 Storage Write API 时，指定写入语义。如需使用“至少一次”语义 (https://beam.apache.org/documentation/io/built-in/google-bigquery/#at-least-once-semantics)，请将此参数设置为 true。如需使用“正好一次”语义，请将此参数设置为 false。仅当 useStorageWriteApi 为 true 时，此参数才适用。默认值为 false。
useStorageWriteApi：如果为 true，则流水线使用 BigQuery Storage Write API (https://cloud.google.com/bigquery/docs/write-api)。默认值为 false。如需了解详情，请参阅“使用 Storage Write API”(https://beam.apache.org/documentation/io/built-in/google-bigquery/#storage-write-api)。
numStorageWriteApiStreams：使用 Storage Write API 时，指定写入流的数量。如果 useStorageWriteApi 为 true 且 useStorageWriteApiAtLeastOnce 为 false，则必须设置此参数。默认值为 0。
storageWriteApiTriggeringFrequencySec：使用 Storage Write API 时，指定触发频率（以秒为单位）。如果 useStorageWriteApi 为 true 且 useStorageWriteApiAtLeastOnce 为 false，则必须设置此参数。
javascriptTextTransformGcsPath：.js 文件的 Cloud Storage URI，用于定义要使用的 JavaScript 用户定义的函数 (UDF)。例如 gs://my-bucket/my-udfs/my_file.js。
javascriptTextTransformFunctionName：要使用的 JavaScript 用户定义的函数 (UDF) 的名称。例如，如果 JavaScript 函数代码为 myTransform(inJson) { /*...do stuff...*/ }，则函数名称为 myTransform。如需查看 JavaScript UDF 示例，请参阅 UDF 示例 (https://github.com/GoogleCloudPlatform/DataflowTemplates#udf-examples)。
javascriptTextTransformReloadIntervalMinutes：指定重新加载 UDF 的频率（以分钟为单位）。如果值大于 0，则 Dataflow 会定期检查 Cloud Storage 中的 UDF 文件，并在文件修改时重新加载 UDF。此参数可让您在流水线运行时更新 UDF，而无需重启作业。如果值为 0，则停用 UDF 重新加载。默认值为 0。

用户定义的函数

（可选）您可以通过编写用户定义的函数 (UDF) 来扩展此模板。该模板会为每个输入元素调用 UDF。元素载荷会序列化为 JSON 字符串。如需了解详情，请参阅为 Dataflow 模板创建用户定义的函数。

函数规范

UDF 具有以下规范：

输入：Pub/Sub 消息数据字段，序列化为 JSON 字符串。

输出：与 BigQuery 目标表的架构匹配的 JSON 字符串。

运行模板

控制台

转到 Dataflow 基于模板创建作业页面。

转到“基于模板创建作业”

在作业名称字段中，输入唯一的作业名称。
可选：对于区域性端点，从下拉菜单中选择一个值。默认区域为 us-central1。
如需查看可以在其中运行 Dataflow 作业的区域列表，请参阅 Dataflow 位置。
从 Dataflow 模板下拉菜单中，选择 the Pub/Sub to BigQuery template。
在提供的参数字段中，输入您的参数值。
可选：如需从“正好一次”处理切换到“至少一次”流处理模式，请选择至少一次。
点击运行作业。

gcloud

在 shell 或终端中，运行模板：

gcloud dataflow flex-template run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/flex/PubSub_to_BigQuery_Flex \
    --template-file-gcs-location REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
inputTopic=projects/PROJECT_ID/topics/TOPIC_NAME,\
outputTableSpec=PROJECT_ID:DATASET.TABLE_NAME

替换以下内容：

JOB_NAME：您选择的唯一性作业名称
REGION_NAME：要在其中部署 Dataflow 作业的区域，例如 us-central1
VERSION：您要使用的模板的版本
您可使用以下值：
- latest，以使用模板的最新版本，该模板在存储桶的未标示日期的父文件夹 (gs://dataflow-templates-REGION_NAME/latest/) 中可用
- 版本名称（如 2023-09-12-00_RC00），以使用模板的特定版本，该版本嵌套在存储桶的相应日期父文件夹 (gs://dataflow-templates-REGION_NAME/) 中
注意：最新版模板可能会随着重大更改而更新。为了防止这些重大更改影响您的生产工作流程，生产环境应使用有最近标示日期的父文件夹中保存的模板。
STAGING_LOCATION：暂存本地文件的位置（例如 gs://your-bucket/staging）
TOPIC_NAME：您的 Pub/Sub 主题名称
DATASET：您的 BigQuery 数据集
TABLE_NAME：您的 BigQuery 表名称

API

如需使用 REST API 来运行模板，请发送 HTTP POST 请求。如需详细了解 API 及其授权范围，请参阅 projects.templates.launch。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "parameters": {
       "inputTopic": "projects/PROJECT_ID/subscriptions/SUBSCRIPTION_NAME",
       "outputTableSpec": "PROJECT_ID:DATASET.TABLE_NAME"
      },
      "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/PubSub_to_BigQuery_Flex",
   }
}