Apache Kafka to BigQuery 模板

Apache Kafka to BigQuery 模板是一种流处理流水线,可从 Google Cloud Managed Service for Apache Kafka 集群注入文本数据,然后将生成的记录输出到 BigQuery 表。将数据插入输出表时发生的任何错误都会插入 BigQuery 中的单独错误表中。

您还可以将 Apache Kafka to BigQuery 模板与自行管理的 Kafka 或外部 Kafka 搭配使用。

流水线要求

  • Apache Kafka 代理服务器必须正在运行并可从 Dataflow 工作器机器进行访问。
  • Apache Kafka 主题必须已存在。
  • 您必须启用 Dataflow、BigQuery 和 Cloud Storage API。如果需要进行身份验证,您还必须启用 Secret Manager API。
  • 为您的 Kafka 输入主题创建具有适当架构的 BigQuery 数据集和表。如果您在同一主题中使用多个架构,并希望写入多个表,则无需在配置数据流之前创建表。
  • 启用模板的死信(未处理的消息)队列后,请创建一个不包含死信队列架构的空表。

Kafka 消息格式

Apache Kafka to BigQuery 模板支持以如下格式从 Kafka 读取消息:CONFLUENT_AVRO_WIRE_FORMATAVRO_BINARY_FORMATJSON

身份验证

Apache Kafka to BigQuery 模板支持对 Kafka 代理进行 SASL/PLAIN 身份验证。

模板参数

必需参数

  • readBootstrapServerAndTopic:要从中读取输入的 Kafka 主题。
  • writeMode:将记录写入一个表或多个表(基于架构)。只有 AVRO_CONFLUENT_WIRE_FORMAT 来源消息格式和 SCHEMA_REGISTRY 架构来源支持 DYNAMIC_TABLE_NAMES 模式。目标表名称会根据每条消息的 Avro 架构名称自动生成,可以是单个架构(创建单个表)或多个架构(创建多个表)。SINGLE_TABLE_NAME 模式会写入用户指定的单个表(单个架构)。默认值为 SINGLE_TABLE_NAME
  • kafkaReadAuthenticationMode:与 Kafka 集群搭配使用的身份验证模式。如果不进行身份验证,请使用 NONE;如果使用 SASL/PLAIN 用户名和密码,请使用 SASL_PLAIN;如果使用基于证书的身份验证,请使用 TLS。Apache Kafka for BigQuery 仅支持 SASL_PLAIN 身份验证模式。默认值为:SASL_PLAIN。
  • messageFormat:要读取的 Kafka 消息的格式。支持的值包括 AVRO_CONFLUENT_WIRE_FORMAT(Confluent 架构注册表编码的 Avro)、AVRO_BINARY_ENCODING(普通二进制 Avro)和 JSON。默认值为:AVRO_CONFLUENT_WIRE_FORMAT。
  • useBigQueryDLQ:如果为 true,系统会将失败的消息写入 BigQuery,并附带额外的错误信息。默认值为:false。

可选参数

  • outputTableSpec:要将输出写入的 BigQuery 表位置。该名称应采用 <project>:<dataset>.<table_name> 格式。表的架构必须与输入对象匹配。
  • persistKafkaKey:如果为 true,流水线将在 BigQuery 表中的类型为 BYTES_key 字段中保留 Kafka 消息键。默认值为 false(系统会忽略该键)。
  • outputProject:数据集所在的 BigQuery 输出项目。系统会在数据集中动态创建表。默认值为空。
  • outputDataset:要将输出写入到的 BigQuery 输出数据集。系统会在数据集中动态创建表。如果表是预先创建的,则表名称应遵循指定的命名惯例。名称应为 bqTableNamePrefix + Avro Schema FullName,每个字词之间用连字符 - 分隔。默认值为空。
  • bqTableNamePrefix:创建 BigQuery 输出表时使用的命名前缀。仅在使用架构注册表时适用。默认值为空。
  • createDisposition:BigQuery CreateDisposition。例如:CREATE_IF_NEEDEDCREATE_NEVER。默认值为:CREATE_IF_NEEDED。
  • writeDisposition:BigQuery WriteDisposition。例如:WRITE_APPENDWRITE_EMPTYWRITE_TRUNCATE。默认值为:WRITE_APPEND。
  • useAutoSharding:如果为 true,则流水线在写入 BigQuery 时会使用自动分片。默认值为 true
  • numStorageWriteApiStreams:指定写入流的数量,必须设置此参数。默认值为 0
  • storageWriteApiTriggeringFrequencySec:指定触发频率(以秒为单位),必须设置此参数。默认值为 5 秒。
  • useStorageWriteApiAtLeastOnce:此参数仅在启用了“使用 BigQuery Storage Write API”时有效。如果启用,则系统会将“至少一次”语义用于 Storage Write API,否则会使用“正好一次”语义。默认值为:false。
  • enableCommitOffsets:将已处理消息的偏移量提交到 Kafka。如果启用此参数,则在重启流水线时,消息处理的间隔或重复处理会降到最低。需要指定使用方群组 ID。默认值为:false。
  • consumerGroupId:此流水线所属的使用方群组的唯一标识符。如果已启用“将偏移量提交到 Kafka”,则必须使用此参数。默认值为空。
  • kafkaReadOffset:在没有提交偏移量的情况下读取消息的起点。最早的从最开始算起,最新的从最新消息算起。默认值为:latest。
  • kafkaReadUsernameSecretId:Google Cloud Secret Manager Secret ID,其中包含要与 SASL_PLAIN 身份验证搭配使用的 Kafka 用户名。例如 projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<SECRET_VERSION>。默认值为空。
  • kafkaReadPasswordSecretId:Google Cloud Secret Manager Secret ID,其中包含要与 SASL_PLAIN 身份验证搭配使用的 Kafka 密码。例如 projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<SECRET_VERSION>。默认值为空。
  • kafkaReadKeystoreLocation:Java KeyStore (JKS) 文件的 Google Cloud Storage 路径,该文件包含在向 Kafka 集群进行身份验证时使用的 TLS 证书和私钥。例如 gs://your-bucket/keystore.jks
  • kafkaReadTruststoreLocation:Java TrustStore (JKS) 文件的 Google Cloud Storage 路径,该文件包含用于验证 Kafka 代理身份的受信任证书。
  • kafkaReadTruststorePasswordSecretId:Google Cloud Secret Manager Secret ID,其中包含用于访问 Java TrustStore (JKS) 文件以进行 Kafka TLS 身份验证的密码,例如 projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<SECRET_VERSION>
  • kafkaReadKeystorePasswordSecretId:Google Cloud Secret Manager Secret ID,其中包含用于访问 Java KeyStore (JKS) 文件以进行 Kafka TLS 身份验证的密码。例如 projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<SECRET_VERSION>
  • kafkaReadKeyPasswordSecretId:Google Cloud Secret Manager Secret ID,其中包含用于访问 Java KeyStore (JKS) 文件中的私钥以进行 Kafka TLS 身份验证的密码。例如 projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<SECRET_VERSION>
  • schemaFormat:Kafka 架构格式。可以作为 SINGLE_SCHEMA_FILESCHEMA_REGISTRY 提供。如果指定了 SINGLE_SCHEMA_FILE,则对所有消息使用 avro 架构文件中提及的架构。如果指定了 SCHEMA_REGISTRY,消息可以具有单个架构或多个架构。默认值为 SINGLE_SCHEMA_FILE。
  • confluentAvroSchemaPath:用于解码主题中所有消息的单个 Avro 架构文件的 Google Cloud Storage 路径。默认值为空。
  • schemaRegistryConnectionUrl:用于管理 Avro 架构以进行消息解码的 Confluent 架构注册表实例的网址。默认值为空。
  • binaryAvroSchemaPath:用于解码二进制编码 Avro 消息的 Avro 架构文件的 Google Cloud Storage 路径。默认值为空。
  • schemaRegistryAuthenticationMode:架构注册表身份验证模式。可以是 NONE、TLS 或 OAUTH。默认为:NONE。
  • schemaRegistryTruststoreLocation:SSL 证书的位置,用于存储用于对 Schema Registry 进行身份验证的信任库。例如 /your-bucket/truststore.jks
  • schemaRegistryTruststorePasswordSecretId:Secret Manager 中的 SecretId,用于存储访问信任库中 Secret 的密码。例如 projects/your-project-number/secrets/your-secret-name/versions/your-secret-version
  • schemaRegistryKeystoreLocation:包含 SSL 证书和私钥的密钥库位置。例如 /your-bucket/keystore.jks
  • schemaRegistryKeystorePasswordSecretId:Secret Manager 中的 SecretId,其中包含用于访问密钥库文件的密码,例如 projects/your-project-number/secrets/your-secret-name/versions/your-secret-version
  • schemaRegistryKeyPasswordSecretId:访问密钥库中存储的客户端私钥所需的密码的 SecretId,例如 projects/your-project-number/secrets/your-secret-name/versions/your-secret-version
  • schemaRegistryOauthClientId:用于在 OAUTH 模式下对架构注册表客户端进行身份验证的客户端 ID。对于 AVRO_CONFLUENT_WIRE_FORMAT 消息格式,此字段为必需字段。
  • schemaRegistryOauthClientSecretId:Google Cloud Secret Manager Secret ID,其中包含用于在 OAUTH 模式下对 Schema Registry 客户端进行身份验证的客户端 Secret。对于 AVRO_CONFLUENT_WIRE_FORMAT 消息格式,此字段为必需字段。例如 projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<SECRET_VERSION>
  • schemaRegistryOauthScope:用于在 OAUTH 模式下对架构注册表客户端进行身份验证的访问令牌范围。此字段是可选字段,因为您无需传递范围参数即可发出请求。例如 openid
  • schemaRegistryOauthTokenEndpointUrl:OAuth/OIDC 身份提供程序的基于 HTTP(S) 的网址,用于在 OAUTH 模式下对架构注册表客户端进行身份验证。对于 AVRO_CONFLUENT_WIRE_FORMAT 消息格式,此字段为必需字段。
  • outputDeadletterTable:失败消息的完全限定 BigQuery 表名称。出于各种原因(例如,架构不匹配、JSON 格式错误)未能到达输出表的消息会写入该表。该表将由模板创建。例如 your-project-id:your-dataset.your-table-name

运行模板

控制台

  1. 转到 Dataflow 基于模板创建作业页面。
  2. 转到“基于模板创建作业”
  3. 作业名称字段中,输入唯一的作业名称。
  4. 可选:对于区域性端点,从下拉菜单中选择一个值。默认区域为 us-central1

    如需查看可以在其中运行 Dataflow 作业的区域列表,请参阅 Dataflow 位置

  5. Dataflow 模板下拉菜单中,选择 the Kafka to BigQuery template。
  6. 在提供的参数字段中,输入您的参数值。
  7. 可选:如需从“正好一次”处理切换到“至少一次”流处理模式,请选择至少一次
  8. 点击运行作业

gcloud

在 shell 或终端中,运行模板:

gcloud dataflow flex-template run JOB_NAME \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/Kafka_to_BigQuery_Flex \
    --parameters \
outputTableSpec=BIGQUERY_TABLE,\
inputTopics=KAFKA_TOPICS,\
javascriptTextTransformGcsPath=PATH_TO_JAVASCRIPT_UDF_FILE,\
javascriptTextTransformFunctionName=JAVASCRIPT_FUNCTION,\
bootstrapServers=KAFKA_SERVER_ADDRESSES
  

替换以下内容:

  • PROJECT_ID:您要在其中运行 Dataflow 作业的 Google Cloud 项目的 ID
  • JOB_NAME:您选择的唯一性作业名称
  • REGION_NAME:要在其中部署 Dataflow 作业的区域,例如 us-central1
  • VERSION:您要使用的模板的版本

    您可使用以下值:

  • BIGQUERY_TABLE:您的 BigQuery 表名称
  • KAFKA_TOPICS:Apache Kakfa 主题列表。如果提供了多个主题,您需要转义英文逗号。请参阅 gcloud topic escaping
  • PATH_TO_JAVASCRIPT_UDF_FILE.js 文件的 Cloud Storage URI,用于定义您要使用的 JavaScript 用户定义的函数 (UDF),例如 gs://my-bucket/my-udfs/my_file.js
  • JAVASCRIPT_FUNCTION: 您要使用的 JavaScript 用户定义的函数 (UDF) 的名称

    例如,如果您的 JavaScript 函数代码为 myTransform(inJson) { /*...do stuff...*/ },则函数名称为 myTransform。如需查看 JavaScript UDF 示例,请参阅 UDF 示例

  • KAFKA_SERVER_ADDRESSES:Apache Kafka broker 服务器 IP 地址列表。每个 IP 地址都需要可访问服务器的端口号。例如:35.70.252.199:9092。如果提供了多个地址,您需要转义英文逗号。请参阅 gcloud topic escaping

API

如需使用 REST API 来运行模板,请发送 HTTP POST 请求。如需详细了解 API 及其授权范围,请参阅 projects.templates.launch

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "parameters": {
          "outputTableSpec": "BIGQUERY_TABLE",
          "inputTopics": "KAFKA_TOPICS",
          "javascriptTextTransformGcsPath": "PATH_TO_JAVASCRIPT_UDF_FILE",
          "javascriptTextTransformFunctionName": "JAVASCRIPT_FUNCTION",
          "bootstrapServers": "KAFKA_SERVER_ADDRESSES"
      },
      "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/Kafka_to_BigQuery_Flex",
   }
}
  

替换以下内容:

  • PROJECT_ID:您要在其中运行 Dataflow 作业的 Google Cloud 项目的 ID
  • JOB_NAME:您选择的唯一性作业名称
  • LOCATION:要在其中部署 Dataflow 作业的区域,例如 us-central1
  • VERSION:您要使用的模板的版本

    您可使用以下值:

  • BIGQUERY_TABLE:您的 BigQuery 表名称
  • KAFKA_TOPICS:Apache Kakfa 主题列表。如果提供了多个主题,您需要转义英文逗号。请参阅 gcloud topic escaping
  • PATH_TO_JAVASCRIPT_UDF_FILE.js 文件的 Cloud Storage URI,用于定义您要使用的 JavaScript 用户定义的函数 (UDF),例如 gs://my-bucket/my-udfs/my_file.js
  • JAVASCRIPT_FUNCTION: 您要使用的 JavaScript 用户定义的函数 (UDF) 的名称

    例如,如果您的 JavaScript 函数代码为 myTransform(inJson) { /*...do stuff...*/ },则函数名称为 myTransform。如需查看 JavaScript UDF 示例,请参阅 UDF 示例

  • KAFKA_SERVER_ADDRESSES:Apache Kafka broker 服务器 IP 地址列表。每个 IP 地址都需要可访问服务器的端口号。例如:35.70.252.199:9092。如果提供了多个地址,您需要转义英文逗号。请参阅 gcloud topic escaping

如需了解详情,请参阅使用 Dataflow 将数据从 Kafka 写入 BigQuery

后续步骤