Bigtable Data Boost 概览

Data Boost 是一种无服务器计算服务,旨在实现高吞吐量 读取作业,而不影响 处理应用流量的集群。它支持发送大量读取作业, 使用无服务器计算进行查询,而核心应用可继续使用 用于计算的集群节点无服务器计算 SKU 和结算费率 与已预配节点的 SKU 和费率分开计算您不能写入或 删除请求。

本文档介绍了 Data Boost 以及何时以及如何使用 。在阅读本页之前,您应该先了解实例、集群和 节点

适合的场景

Data Boost 非常适合数据分析和数据处理工作负载。 使用 Data Boost 隔离分析和处理流量可确保 因此您无需调整集群的容量或节点数 分析工作负载。您可以利用 Google Cloud 控制台 支持单个集群,同时持续处理应用流量, 通过集群节点进行路由

以下是 Data Boost 的理想用例:

  • 计划或触发的导出或 ETL 流水线作业: 将 Bigtable 传送到 Cloud Storage,丰富数据、进行分析 归档、离线机器学习模型训练或注入, 第三方合作伙伴
  • 使用 Dataflow 等工具进行短时扫描 或支持基于规则的就地汇总的批量读取流程 适用于 MDM 或机器学习作业的转换

不适合的场景

点读取 - Data Boost 不是点读取的最佳选择 操作,即针对单个行发送的读取请求。这包括 批量点读取。由于结算结构的原因,很多单行积分 相较于一次长扫描,读取开销要大得多。

在写入数据后立即读取数据 - 当您使用 Data Boost,您可能无法读取最近写入的 半小时。如果您的实例使用了复制, 读取写入到与您位于不同区域中的集群的数据 。如需了解详情,请参阅 一致性

对延迟敏感的工作负载 - Data Boost 针对吞吐量进行了优化, 因此使用 Data Boost 时读取延迟时间比使用 Data Boost 时慢 集群和节点。因此,Data Boost 并不适合 应用服务工作负载。

有关 Google Cloud 工作负载、配置和功能 不兼容 Data Boost,请参阅限制

Data Boost 应用配置文件

若要使用 Data Boost 功能,请使用 Data Boost 应用发送读取请求 配置文件,而不是标准应用配置文件

通过标准应用配置文件,您可以指定 路由政策优先级 使用应用配置文件的请求,以及 交易。使用标准应用配置文件发送的流量 该集群的节点将流量路由到磁盘。有关 请参阅 标准应用配置文件概览

另一方面,通过 Data Boost 应用配置文件,您可以配置 到您实例的其中一个集群的单集群路由政策以及流量 使用无服务器计算而不是集群的节点。

您可以创建新的 Data Boost 应用配置文件,也可以将标准 以改用 Data Boost。我们建议使用 为每个工作负载或应用创建单独的应用配置文件

一致性令牌

写入或复制到目标集群的数据量超过 35 个 。

您可以确保特定写入作业或时间段的数据 在启动 Data Boost 之前,可由 Data Boost 读取 通过创建和使用 一致性令牌。示例工作流程如下:

  1. 将一些数据写入表中。
  2. 创建一致性令牌。
  3. DataBoostReadLocalWrites 模式发送令牌,以确定何时 Data Boost 可以在目标集群上读取写入内容。

您可以根据需要在检查 Data Boost 之前检查复制一致性 一致性。StandardReadRemoteWrites

有关详情,请参阅 CheckConsistencyRequest.

配额和计费

Data Boost 使用无服务器处理单元 (SPU),即独立的 按需计算资源 - 衡量在读取 数据。与节点不同,仅当出现以下情况时,您才需要为 SPU 付费 。每个请求至少按 60 SPU 秒计费, 每秒被收取至少 10 个 SPU。如需详细了解 Data Boost 请参阅 Bigtable pricing.

系统会为您分配配额,并按 SPU 计费,而与配额分开计费。 节点费用

资格条件指标

Data Boost 专为高吞吐量扫描而设计,工作负载必须 才能使用 Data Boost。转换标准版应用前的准备工作 或创建 Data Boost 应用配置文件 现有工作负载,请查看 Data Boost 资格指标,以确保您的 配置和用法符合要求的标准。您还应查看 限制

监控

若要监控 Data Boost 流量,您可以查看 Bigtable Monitoring 页面上的 Data Boost 应用配置文件, Google Cloud 控制台。如需查看按应用配置文件提供的指标列表,请参阅 Bigtable 资源的监控图表

您可以通过以下方式监控无服务器处理单元 (SPU) 的使用情况, SPU 用量计数 (data_boost/spu_usage_count) 指标 Metrics Explorer

您还可以继续监控资格要求 指标 应用配置文件。

限制

不支持以下工作负载属性和资源配置 。

  • 写入和删除
  • 主要为点读取的流量(单行读取)
  • 每个集群每秒超过 1,000 次读取
  • 反向扫描
  • 变更流
  • 请求优先级
  • 多集群路由
  • 单行事务
  • 区域端点
  • HDD 实例
  • 使用 CMEK 加密的实例
  • 客户端库不兼容。您必须使用 Java 版 Bigtable 客户端 2.31.0 或更高版本。
    • 对于使用 BigtableIO 读取 Bigtable 数据的 Dataflow 作业,您必须使用 Apache Beam 2.54.0 或更高版本。
    • 对于使用 CloudBigtableIO 读取 Bigtable 数据的 Dataflow 作业,您必须使用 bigtable-hbase-beam 2.14.1 版或更高版本。

预览版不支持以下各项。

  • 在 Google Cloud 控制台中创建和配置 Data Boost 应用配置文件
  • 从 BigQuery 或 Spark 读取 Bigtable 数据

后续步骤