Bigtable Data Boost 概览

Data Boost 是一种无服务器计算服务,旨在对 Bigtable 数据运行高吞吐量读取作业,而不会影响处理应用流量的集群的性能。它支持您使用无服务器计算发送大量读取作业和查询,同时您的核心应用可继续使用集群节点进行计算。无服务器计算 SKU 和结算费率独立于预配节点的 SKU 和费率。您无法使用 Data Boost 发送写入或删除请求。

本文档介绍了 Data Boost 以及何时以及如何使用它。在阅读本页之前,您应该了解实例、集群和节点

适合的场景

Data Boost 非常适合数据分析和数据处理工作负载。使用 Data Boost 隔离分析和处理流量可确保您无需为适应分析工作负载而调整集群的容量或节点数。您可以使用 Data Boost 在单个集群上运行高吞吐量分析作业,同时持续的应用流量通过集群节点路由。

以下是 Data Boost 的理想用例:

  • 计划或触发的从 Bigtable 到 Cloud Storage 的导出或 ETL 流水线作业,以便于客户的第三方合作伙伴进行数据丰富、分析、归档、离线机器学习模型训练或注入
  • 使用 Dataflow 等工具执行短扫描或批量读取流程(支持就地聚合、基于规则的 MDM 转换或机器学习作业)进行 ETL

不适合的场景

点读取 - Data Boost 不是点读取操作(此类操作是针对单行发送的读取请求)的最佳选择。这包括批量读取。由于计费结构的原因,许多单行点读取的成本远远高于一次长扫描。

在数据写入后立即读取数据 - 使用 Data Boost 读取数据时,您可能无法读取最近半小时内写入的所有数据。如果您的实例使用复制,并且您要读取的数据写入到的集群位于与读取位置不同的区域,则更是如此。如需了解详情,请参阅一致性

对延迟敏感的工作负载 - Data Boost 针对吞吐量进行了优化,因此,使用 Data Boost 时比使用集群和节点读取时读取延迟时间慢。因此,Data Boost 不适用于处理工作负载的应用。

如需详细了解与 Data Boost 不兼容的工作负载、配置和功能,请参阅限制

Data Boost 应用配置文件

如需使用 Data Boost,请使用 Data Boost 应用配置文件(而不是标准应用配置文件)发送读取请求。

通过标准应用配置文件,您可以为使用该应用配置文件的请求指定路由政策优先级,以及是否允许单行事务。使用标准应用配置文件发送的流量会路由到集群,而该集群的节点会将流量路由到磁盘。如需了解详情,请参阅标准应用配置文件概览

另一方面,通过 Data Boost 应用配置文件,您可以为实例的其中一个集群配置单集群路由政策,使用该应用配置文件的流量使用无服务器计算,而不是集群的节点。

您可以创建新的 Data Boost 应用配置文件,也可以转换标准应用配置文件,改用 Data Boost。我们建议为每个工作负载或应用使用单独的应用配置文件

一致性令牌

在 Data Boost 读取您的读取请求时间前超过 35 分钟写入或复制到目标集群的数据。

在启动 Data Boost 工作负载之前,您可以通过创建和使用一致性令牌来确保 Data Boost 能够读取特定写入作业或时间段的数据。示例工作流程如下:

  1. 将一些数据写入表中。
  2. 创建一致性令牌。
  3. DataBoostReadLocalWrites 模式发送令牌,以确定 Data Boost 何时可以在目标集群上读取写入操作。

您可以选择在检查 Data Boost 一致性之前检查复制一致性,首先在 StandardReadRemoteWrites 模式下发送一致性令牌。

如需了解详情,请参阅 CheckConsistencyRequest 的 API 参考文档。

配额和计费

Data Boost 使用无服务器处理单元 (SPU)(独立的按需计算资源)来衡量通过 Data Boost 读取数据所用的计算能力。与节点不同,只有在使用 SPU 时才需要付费。每个请求至少按 60 SPU 秒计费,您每秒最少按 10 个 SPU 计费。如需详细了解 Data Boost 价格,请参阅 Bigtable 价格

系统会为您分配配额和 SPU 费用,与节点的配额和费用分开计算。

资格条件指标

Data Boost 专为高吞吐量扫描而设计,并且工作负载必须具有兼容性才能使用 Data Boost。在将标准应用配置文件转换为使用 Data Boost 或为现有工作负载创建 Data Boost 应用配置文件之前,请查看 Data Boost 资格指标,确保您的配置和用量符合必要的条件。您还应查看相关限制

监控

如需监控 Data Boost 流量,您可以在 Google Cloud 控制台的 Bigtable 监控页面上查看 Data Boost 应用配置文件的指标。如需查看应用配置文件可用的指标列表,请参阅监控 Bigtable 资源的图表

您可以通过查看 Metrics Explorer 中的 SPU 使用计数 (data_boost/spu_usage_count) 指标来监控无服务器处理单元 (SPU) 的使用情况。

开始使用 Data Boost 后,您还可以继续监控应用配置文件的资格指标

限制

Data Boost 不支持以下工作负载属性和资源配置。

  • 写入和删除
  • 主要为点读取的流量(单行读取)
  • 每个集群每秒超过 1,000 次读取
  • 反向扫描
  • 变更流
  • 请求优先级
  • 多集群路由
  • 单行事务
  • 区域性端点
  • HDD 实例
  • 使用 CMEK 加密的实例
  • 客户端库不兼容。您必须使用 Java 版 Bigtable 客户端 2.31.0 或更高版本。
    • 对于使用 BigtableIO 读取 Bigtable 数据的 Dataflow 作业,您必须使用 Apache Beam 2.54.0 或更高版本。
    • 对于使用 CloudBigtableIO 读取 Bigtable 数据的 Dataflow 作业,您必须使用 bigtable-hbase-beam 2.14.1 版或更高版本。

预览版不支持以下各项。

  • 在 Google Cloud 控制台中创建和配置 Data Boost 应用配置文件
  • 从 BigQuery 或 Spark 读取 Bigtable 数据

后续步骤