利用系统数据分析监控实例

本页面介绍了如何使用 System Insights 信息中心来监控 Spanner 实例和数据库。

系统数据分析简介

系统数据分析信息中心会显示 所选实例或数据库,并提供延迟时间、CPU 利用率、存储空间、吞吐量和其他性能统计信息。您可以查看 从过去 1 小时到 过去 30 天的数据

系统数据分析信息中心包含以下部分 (请参见屏幕截图):

  1. 数据库列表:显示选定数据库的统计信息 数据库。您可以查看单个数据库或所有数据库的聚合。 这仅适用于实例。
  2. 布局切换:在单列布局和双列布局之间切换。
  3. 时间范围过滤条件:按时间范围过滤统计信息,例如 小时、天或自定义范围。
  4. 统计信息摘要:显示某个时间点的统计信息, 。
  5. 图表:显示 CPU 利用率、吞吐量、延迟时间 存储空间使用情况等。

    如果您在以下位置创建分区(预览版): 则会看到另一个下拉列表,用于查看 单个分区或所有分区的汇总。您看不到这项内容 下拉列表(如果您尚未创建任何分区)。

系统数据分析信息中心

System Insights 统计信息摘要图表、图表和指标

系统数据分析信息中心提供了以下图表和指标供您查看 实例的当前状态和历史状态。大多数图表和指标 可在实例级使用您还可以查看每个维度的 单个数据库。

可用的统计信息摘要

名称 说明
CPU 利用率 一个实例中的 CPU 总使用率 所选数据库。在多区域位置 该指标表示 各区域的 CPU 利用率。
延迟时间:P99 读写操作的 P99 延迟时间 实例或所选数据库中的对象。
延迟时间:P50 读写操作的 P50 延迟时间 实例或所选数据库中的对象。
吞吐量 读取的未压缩数据量 或者将数据写入实例或数据库 。此值的衡量标准: 二进制兆字节 (MB),其中 1 MB 为 2^20 字节。这个计量单位也是 称为兆比字节 (MiB)
每秒操作次数 每秒操作次数(速率) 实例中的读写操作 所选数据库。
存储空间利用率 在实例级别, 过去 30 天的 实例。在数据库级别, 所选集群 数据库。

可用图表和指标

以下是一个示例指标的图表:

图片

每个图表卡片上的工具栏都会提供以下一组标准 选项:

  • 要放大图表的特定部分,请点击图表并拖动 水平或垂直方向。要还原缩放操作,请点击 重置缩放级别。 缩放操作会同时应用于信息中心上的所有图表。

  • 要隐藏或显示图例,请点击 展开/收起图表图例

  • 要以全屏模式查看图表,请点击 进入/退出全屏。 您也可以点击 Esc 来退出全屏模式。

  • 要查看其他选项,请点击 更多图表选项

    大多数图表都提供以下选项:

    • 下载 PNG 图片
    • 下载 CSV 文件
    • 添加到自定义信息中心。通过此选项,您可以将图表添加到 Cloud Monitoring 中的新信息中心或现有信息中心。
    • 在 Metrics Explorer 中查看。在以下位置查看指标: Metrics Explorer。 之后,您可以在 Metrics Explorer 中查看其他 Spanner 指标 选择 Spanner 数据库资源类型。

下表介绍了系统中默认显示的图表。 数据分析信息中心系统会列出每个图表的指标类型。指标类型 字符串遵循此前缀:spanner.googleapis.com/指标 类型 描述了可以从受监控的资源收集的测量结果。

图表名称和指标类型
说明 适用于实例 可用于数据库

CPU 利用率(按优先级)


instance/cpu/utilization_by_priority

实例占用的 CPU 资源(高、中、 按优先级排序所有任务这些任务包括 Spanner 必须完成的启动和维护任务 。

对于多区域实例,指标按区域分组 和优先级

学习 有关高优先级任务的更多信息
学习 有关 CPU 利用率的更多信息。



总 CPU 利用率


instance/cpu/utilization_by_priority

CPU 利用率,以实例 CPU 的百分比表示 资源。

对于实例,您可以查看 CPU 总数的堆叠图表 利用率(按数据库分组)或按任务组合分组 类型(用户/系统)和优先级。

对于数据库,您可以查看 CPU 总数的堆叠图表 按任务类型(用户/系统)和 优先级。

对于多区域实例,您可以选择要查看的区域或 则可以用多个折线图来显示所有区域



CPU 利用率(按操作类型)


instance/cpu/utilization_by_operation_type

以百分比表示的 CPU 利用率的堆叠图 实例的 CPU 资源,并按用户发起的操作(如 即读取、写入和提交使用此指标可获取 如 调查 高 CPU 利用率

您可以使用 优先级下拉菜单。

对于多区域实例,折线图中的指标会显示 平均百分比。



CPU 利用率(24 小时的滚动平均值)


instance/cpu/smoothed_utilization

总 CPU 的滚动平均值 Spanner 利用率,以实例占用 CPU 的百分比表示 每个数据库的资源。每个数据点代表前 24 个数据点的平均值 。

对于多区域实例,您可以在以下行中过滤指标: 区域下拉菜单按区域显示图表。



延迟时间(按变更数据流读取)


api/read_request_latencies_by_change_stream

读取请求延迟时间的分布 按变更数据流更新。使用此 指标查看所有延迟时间,并区分延迟时间是否针对 变更数据流读取或非变更数据流读取。

变更数据流查询运行时间很长,预计需要数次 秒。相比之下,非变更数据流查询 。 利用此指标,您可以:
  • 查看变更数据流查询的延迟时间。
  • 查看非变更数据流查询的延迟时间。
  • 确定是否遇到了非变更数据流查询 延迟时间较长



延迟时间


api/request_latencies

Spanner 处理读取或写入所花费的时间 请求。使用函数下拉菜单进行选择 读取写入,或者选择 读/写:查看二者的指标。这个 从 Spanner 收到请求时开始衡量 当 Spanner 开始发送响应时触发。

您可以查看第 50 和第 99 百分位的延迟时间指标 百分位数下拉菜单指定延迟时间:
  • 第 50 百分位延迟时间: 速度最快的 50% 的请求。
  • 第 99 百分位延迟时间: 在所有请求中 速度最快的 99%



延迟时间(按数据库)


api/request_latencies

Spanner 处理读取或写入所花费的时间 请求(按数据库分组)。使用函数 从下拉列表中选择读取写入, 或选择读写以查看二者的指标。这个 从 Spanner 收到请求时开始, 当 Spanner 开始发送响应时触发。

您可以按 使用百分位数下拉菜单:
  • 第 50 百分位延迟时间: 速度最快的 50% 的请求。
  • 第 99 百分位延迟时间: 在所有请求中 速度最快的 99%



延迟时间(按 API 方法)


api/request_latencies

Spanner 处理请求所花费的时间(分组) 。当 Spanner 收到请求,并在 Spanner 开始发送响应。

您可以查看第 50 和第 99 百分位延迟时间的指标 百分位数下拉菜单:
  • 第 50 百分位延迟时间: 速度最快的 50% 的请求。
  • 第 99 百分位延迟时间: 在所有请求中 速度最快的 99%




事务延迟时间


api/request_latencies_by_transaction_type

Spanner 处理事务所用的时间。 您可以选择以读写模式查看指标 交易。

延迟时间图表与 “事务延迟时间”图表是指 用于为只读类型选择主要参与类型。 您可以选择牵涉到主管否 主事务参与。读 主要节点可能会经历较长的延迟时间。您可以使用 图表,以评估是否应在不传达 主要副本(假设 timestamp) 绑定至少为 15 秒。对于读写事务, 主要副本始终参与交易,因此 图表始终包含用户发出请求所花费的时间 并接收响应。

您可以查看第 50 和第 99 百分位的指标 延迟时间:
  • 第 50 百分位延迟时间: 速度最快的 50% 的交易。
  • 第 99 百分位延迟时间: 占所有交易的 99%



事务延迟时间(按数据库)


api/request_latencies_by_transaction_type

Spanner 处理事务所用的时间。 您可以选择以读写模式查看指标 交易。

延迟时间图表与 事务延迟时间(按数据库图表)是指 通过“按数据库”图表,您可以选择 只读类型。您可以选择牵涉到领导层或 只读事务不涉及主要副本。 涉及主要副本的读取操作可能会经历较长的延迟时间。您 可以使用此图表来评估您是否应该使用过时读取, 与主要副本进行通信(假设时间戳为 绑定至少为 15 秒。对于读写事务, 主要副本始终参与交易,因此 图表始终包含用户发出请求所花费的时间 并接收响应。

您可以查看第 50 和第 99 百分位的指标 延迟时间:
  • 第 50 百分位延迟时间: 速度最快的 50% 的交易。
  • 第 99 百分位延迟时间: 占所有交易的 99%




事务延迟时间(按 API 方法)


api/request_latencies_by_transaction_type

Spanner 处理事务所用的时间。 您可以选择以读写模式查看指标 交易。

延迟时间图表与 事务延迟时间(按 API 方法)图表表示,事务 延迟时间(按 API 方法)图表可让您选择领先变体 。您可以选择“潜在客户”是 或没有主管参与 只读事务。涉及主要副本的读取操作可能 延迟时间较长您可以使用此图表来评估 在不与主要副本进行通信的情况下使用过时读取; 并假设 timestamp 绑定至少为 15 秒。对于读写事务, 主要副本始终参与交易,因此 图表始终都会包含 并接收响应。

您可以查看第 50 和第 99 百分位延迟时间的指标:
  • 第 50 百分位延迟时间: 速度最快的 50% 的交易。
  • 第 99 百分位延迟时间: 占所有交易的 99%



每秒操作次数


api/api_request_count

Spanner 每 或者 Spanner 上发生的错误数量 服务器数量

您可以选择要在此图表中查看的操作:
  • 读取和写入(还包括读取和写入错误)
  • 只读(还包括 DML 语句和读取错误)
  • 只写(不包括 DML 语句并包含写入错误)
  • Spanner 服务器上的错误(按读写分组)



每秒操作次数(按数据库)


api/api_request_count

Spanner 每 或者 Spanner 上发生的错误数量 服务器数量此图表按数据库分组。

您可以选择要在此图表中查看的操作:
  • 读取和写入(还包括读取和写入错误)
  • 只读(还包括 DML 语句和读取错误)
  • 只写(不包括 DML 语句并包含写入错误)
  • Spanner 服务器上的错误(按读写分组)



每秒操作次数(按 API 方法)


api/api_request_count

Spanner 执行的操作数量(每个 第二,按 Spanner API 方法分组



吞吐量


api/sent_bytes_count (已读)

api/received_bytes_count (写入)

读取或写入的未压缩数据量 实例或数据库。此值的衡量标准: 二进制字节单位:这种计量单位是基于 力量 (共 2 项)。例如,1 个二进制千兆字节 (GB) 是 2^30 个字节。此单元 也称为吉比字节 (GiB) 相同。

读取吞吐量包括 阅读的 API 和 SQL 查询。还包括请求和响应 。

写入吞吐量包括请求和对提交数据的响应 通过变更 API。它排除了 DML 语句的请求和响应。



吞吐量(按数据库)


api/sent_bytes_count (已读)

api/received_bytes_count (写入)

读取或写入的未压缩数据量 实例或数据库,按数据库分组。该值为 以二进制字节单位衡量。这种计量单位是基于 力量 (共 2 项)。例如,1 个二进制千兆字节 (GB) 是 2^30 个字节。此单元 也称为吉比字节 (GiB) 相同。

读取吞吐量包括 阅读的 API 和 SQL 查询。还包括请求和响应 。

写入吞吐量包括请求和对提交数据的响应 通过变更 API。它排除了 DML 语句的请求和响应。



吞吐量(按 API 方法)


api/sent_bytes_count (已读)

api/received_bytes_count (写入)

读取或写入的未压缩数据量 实例或数据库,按 API 方法分组。此值的衡量标准: 二进制字节单位: 这种计量单位是基于 力量 (共 2 项)。例如,1 个二进制千兆字节 (GB) 是 2^30 个字节。此单元 也称为吉比字节 (GiB) 相同。

读取吞吐量包括 阅读的 API 和 SQL 查询。还包括请求和响应 。

写入吞吐量包括请求和对提交数据的响应 通过变更 API。它排除了 DML 语句的请求和响应。



总存储空间


instance/storage/used_bytes

存储在实例或数据库中的数据量。 此值以二进制字节为单位进行计量。例如:1 二进制千兆字节 (GB) 是 2^30 个字节。这个计量单位也是 称为 GiB (GiB) 相同。



数据库总存储空间(按数据库)


instance/storage/used_bytes

存储在实例或数据库中的数据量,按 数据库。 此值以二进制字节为单位进行计量。例如:1 二进制千兆字节 (GB) 是 2^30 个字节。这个计量单位也是 称为 GiB (GiB) 相同。



数据库存储空间(按表)


(无)

存储在实例或数据库中的数据量(按表分组) 所选数据库中的名称。 此值以二进制字节为单位进行计量。例如:1 二进制千兆字节 (GB) 是 2^30 个字节。这个计量单位也是 称为 GiB (GiB) 相同。

此图表通过查询 SPANNER_SYS.TABLE_SIZES_STATS_1HOUR.如需了解详情,请参阅 <ph type="x-smartling-placeholder"></ph> 表大小统计信息



操作最常用的表


(无)

实例或数据库中最常用的 15 个表和索引,由 读取、写入或删除操作的次数。
此图表通过查询表操作统计信息表来获取数据。 如需了解详情,请参阅 <ph type="x-smartling-placeholder"></ph> 表操作统计信息



操作最少的表


(无)

实例或数据库中 15 个最不常用的表和索引,由 读取、写入或删除操作的次数。
此图表通过查询表操作统计信息表来获取数据。 如需了解详情,请参阅 <ph type="x-smartling-placeholder"></ph> 表操作统计信息



锁定等待时间


lock_stat/total/lock_wait_time

事务的锁定等待时间是获取 另一个事务所持有的资源上。

锁定的总锁定等待时间 都会记录整个数据库的冲突。



锁定等待时间(按数据库)


lock_stat/total/lock_wait_time

事务的锁定等待时间是获取 另一个事务所持有的资源上。

锁定的总锁定等待时间 都会记录整个数据库的冲突。



总备份存储空间


实例/备份/已使用的字节数

存储在每个可用区的备份中的数据量 与实例或数据库相关联。此值的衡量标准: 二进制字节单位:例如,1 个二进制千兆字节 (GB) 是 2^30 个字节。此计量单位也称为吉比字节 (GiB) 相同。



总备份存储空间(按数据库)


实例/备份/已使用的字节数

存储在与备份相关联的备份中的数据量。 实例或数据库,按数据库分组。此值的衡量标准: 二进制字节单位:例如,1 个二进制千兆字节 (GB) 是 2^30 个字节。此计量单位也称为吉比字节 (GiB) 相同。



计算容量


instance/processing_units
实例/节点

计算 容量是指此区域中可用的处理单元或节点的数量, 实例。您可以选择显示正在处理的容量 或以节点为单位




主要区域分布


instance/leader_percentage_by_region

对于多区域实例,您可以使用 大多数领先组织 (>=50%)。在 区域下拉菜单(如果您选择了特定区域) 图表会显示该区域中的数据库总数 将所选区域作为主要区域的实例。如果您 选择 区域下拉菜单中,图表会显示一条线代表 而每一行则显示各区域中数据库的总数 该区域作为主要区域的实例。

对于多区域实例中的数据库,您可以查看领先变体的百分比 按区域分组例如,如果数据库有五个主要副本,其中一个位于 us-west1 在某个时间点,us-east1 有四个区域,“所有区域”图表显示两条线 (每个区域一个)。us-west1 的一行表示 20%,另一行表示 us-west1 us-east1 的电量为 80%。us-west1 图表显示了一条位于 20% 处的折线, us-east1 图表在 80% 处显示了一条折线。

请注意,如果数据库是最近创建的或主要区域 因此图表可能不会稳定, 。

此图表仅适用于多区域实例。




双区域仲裁可用性


instance/dual_region_quorum_availability

此图表仅适用于 双区域实例配置。 它显示了三个仲裁运行状况的时间轴:双区域 仲裁,以及每个区域内的单区域仲裁

该图表有一个 Quorum 可用性下拉菜单,显示 区域处于运行状况良好中断模式。使用此 错误率和延迟时间指标图表, 在出现区域级故障时,自行管理何时进行故障切换 错误。如需了解详情,请参阅 故障切换和故障恢复

如需手动进行故障切换和故障恢复,请参阅 更改双区域仲裁




远程服务调用次数


query_stat/total/remote_service_calls_count

远程服务调用次数,按服务和响应代码分组。

返回 HTTP 响应代码,例如 200 或 500。




远程服务调用延迟时间


query_stat/total/remote_service_calls_latencies

远程服务调用的延迟时间,按服务分组。

您可以使用百分位下拉菜单查看第 50 和第 99 百分位延迟时间的延迟时间指标:
  • 第 50 百分位延迟时间:所有请求中处理速度最快的第 50 百分位的最长延迟时间(以秒为单位)。
  • 第 99 百分位延迟时间:所有请求中处理速度最快的第 99 百分位的最长延迟时间(以秒为单位)。




远程服务处理的行数


query_stat/total/remote_service_processed_rows_count

远程服务处理的行数(按服务程序和响应代码分组)。

返回 HTTP 响应代码,例如 200 或 500。




远程服务行延迟时间


query_stat/total/remote_service_processed_rows_latencies

远程服务处理的行数(按服务和响应代码分组)。

您可以使用百分位下拉菜单查看第 50 和第 99 百分位延迟时间的延迟时间指标:
  • 第 50 百分位延迟时间:所有请求中处理速度最快的第 50 百分位的最长延迟时间(以秒为单位)。
  • 第 99 百分位延迟时间:所有请求中处理速度最快的第 99 百分位的最长延迟时间(以秒为单位)。




远程服务网络字节数


query_stat/total/remote_service_network_bytes_sizes

与远程服务交换的网络字节数(按服务和方向分组)。

此值以二进制字节为单位进行衡量。此单元 衡量方法取决于 <ph type="x-smartling-placeholder"></ph> 2 次方。例如,1 个二进制千兆字节 (GB) 是 2^30 个字节。此单元 也称为 吉比字节 (GiB)

方向是指发送或接收的流量。

您可以使用“百分位”下拉菜单查看网络字节交换的第 50 和第 99 百分位的指标:
  • 第 50 百分位:已交换的数据,以请求的第 50 百分位数表示。
  • 第 99 百分位:交换的数据,在第 99 百分位的请求。


代管式自动扩缩器图表和指标

除了上一部分中显示的选项外,如果一个实例具有 代管式自动扩缩器已启用,则计算容量图表包含 查看日志按钮。点击此按钮后,系统会显示 托管式自动扩缩器

以下指标适用于 自动扩缩器。

图表名称和指标类型 说明
计算容量 已选择节点。

instance/autoscaling/min_node_count

自动扩缩器已配置为分配给 实例。

instance/autoscaling/max_node_count
已配置自动扩缩器分配给 实例。

instance/autoscaling/recommended_node_count_for_cpu

根据以下集群的 CPU 使用率建议的节点数 实例。

instance/autoscaling/recommended_node_count_for_storage

根据实例的存储空间用量建议的节点数。
计算容量 已选择处理单元。

实例/自动扩缩/min_processing_units

已配置自动扩缩器分配最小处理单元数 实例。

实例/自动扩缩/max_processing_units

已配置自动扩缩器分配至的处理单元数上限 实例。

instance/autoscaling/recommended_processing_units_for_cpu

建议的处理单元数量。此建议的依据是 实例之前的 CPU 使用率。

instance/autoscaling/recommended_processing_units_for_storage

推荐使用的处理单元数量。此建议为 存储数据
CPU 利用率(按优先级)

instance/autoscaling/high_priority_cpu_utilization_target

用于自动扩缩的高优先级 CPU 利用率目标。
总存储空间 已选择处理单元。

instance/storage/limit_bytes

实例的存储空间上限(以字节为单位)。

instance/autoscaling/storage_utilization_target

用于自动扩缩的存储空间利用率目标。

数据保留

对于系统数据分析信息中心上的大多数指标,最长的数据保留期限为 六周。但是,对于“按表划分的数据库存储空间”图表,数据为SPANNER_SYS.TABLE_SIZES_STATS_1HOUR 表(而非 Spanner),最长保留期限为 30 天。 请参阅 数据保留 了解详情。

查看系统数据分析信息中心

如需查看系统数据分析页面,您需要以下 Identity and Access Management (IAM) 权限以及 Spanner 权限和 实例级和数据库级的 Spanner 权限:

  • spanner.databases.beginReadOnlyTransaction
  • spanner.databases.select
  • spanner.sessions.create

详细了解 Spanner IAM 权限,请参阅使用 IAM 进行访问权限控制

如果您在自己的集群上启用了代管式自动扩缩器, 您还需要拥有 logging.logEntries.list 权限才能查看 托管式自动扩缩器日志

有关此权限的详细信息,请参阅 预定义角色

如需查看系统数据分析信息中心,请按以下步骤操作:

  1. 在 Google Cloud 控制台中,打开 Spanner 实例列表。

    转到实例列表

  2. 执行下列其中一项操作:

    1. 要查看实例的指标,请点击 请点击 系统数据分析

    2. 要查看数据库的指标,请点击实例名称 选择一个数据库,然后点击 系统数据分析

  3. 可选:要查看其他时间段的历史数据,请找到 按钮,然后点击要定位到的时间段 进行查看。

  4. 可选:如需控制图表中显示的数据,请点击图表中的下拉列表之一。例如,如果实例采用多区域配置,则某些图表会提供一个下拉列表以查看特定区域的数据。并非所有图表都有下拉列表。

后续步骤