监控健康状况、资源利用率和作业

作为 BigQuery 管理员,您可以使用资源图表来监控组织的健康状况、槽用量和作业性能随时间变化的情况。可用的图表如下:

  • 监控 BigQuery 的运行状况 BigQuery 实时运行状况监控是一个集中式监控系统,可让您观察整个组织在多个位置的 BigQuery 使用情况。

  • 查看管理资源利用率 管理资源图表的主要用例包括基于历史资源利用率的容量规划根本原因分析和诊断性能变化。

如需查看运行健康状况信息中心,您必须至少具有一个通过管理项目访问的预留。 具有适当权限的所有用户都可以使用资源图表。

所需的角色

如需获得查看管理资源图表中所有数据所需的权限,请让您的管理员为您授予组织的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

这些预定义角色可提供查看管理资源图表中所有数据所需的权限。如需查看所需的确切权限,请展开所需权限部分:

所需权限

查看管理资源图表中的所有数据需要以下权限:

  • 针对组织的 bigquery.jobs.listExecutionMetadata or bigquery.jobs.listAll 权限
  • 针对预留管理项目的 bigquery.reservationAssignments.list 权限
  • 针对预留管理项目的 bigquery.capacityCommitments.list 权限
  • 如需查看运行健康状况的摘要数据: 针对项目的 bigquery.tables.get or bigquery.tables.list 权限
  • 查看预留级层的部分数据:
    • 针对预留管理项目的 bigquery.reservations.list 权限
    • 针对预留管理项目的 bigquery.reservationAssignments.list 权限
  • 如需在项目级层查看数据: 针对项目的 bigquery.jobs.listAll 权限

您也可以使用自定义角色或其他预定义角色来获取这些权限。

监控整个组织的运行健康状况

运行健康状况信息中心会显示您组织及其所有预留位置中的关键指标及其预留。您可以使用此信息中心来监控以下指标:

  • 槽用量
  • Shuffle 使用情况
  • 作业并发
  • 错误
  • 作业时长
  • 处理的字节数
  • 总存储空间

如需监控运行健康状况,请按照以下步骤操作:

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 在项目菜单中,选择用于购买槽和创建预留的管理项目。

  3. 在导航面板中,选择管理 > Monitoring。 默认情况下,操作运行状况图表会显示所有位置和所有预留的摘要指标。

  4. 如需查看更频繁更新的数据,您可以切换实时数据。如果启用了实时数据,则数据每五分钟会自动刷新一次。如果停用实时数据,则最大数据过时大约为一小时。系统会显示数据的上次更新时间。

如需查看详细视图,请选择要查看其详细时间轴图表的值:

  1. 选择位置列表中,选择一个特定区域。
  2. 选择预留列表中,选择预留。
  3. 选择项目列表中,选择项目。
  4. 时间范围列表中,选择一个时间范围。
  5. 如需详细了解其中一个关键指标图表,请点击探索更多。如需在 Jobs Explorer 中查看更多信息,请点击热门活跃查询图表和数据分析表中的探索更多

BigQuery 通过查询以下 INFORMATION_SCHEMA 视图来提供此信息:

视图

运行健康状况标签页显示以下视图:

摘要视图

摘要视图可让您查看子系统的健康状况,包括组织过去 30 分钟内的预留和区域。

BigQuery 管理摘要视图。

如需查看摘要视图,请执行以下操作:

  • 运行健康状况图表中,在选择位置列表中,选择所有位置

详细视图

详细视图显示了不同指标在位置或预留级层的详细时间表图。

BigQuery 管理详细信息视图概览。

如需查看详细视图,请执行以下操作:

  • 运行健康状况图表中,在选择位置列表中,选择区域或版本。

您可以使用以下可选过滤条件进一步优化详细视图中显示的数据:

  • 选择预留列表中,选择预留名称。
  • 选择项目列表中,选择项目。

图表

运行健康状况标签页显示以下图表配置选项:

摘要表

摘要表显示以下指标:

  • 槽用量。平均槽利用率。总槽容量等于基准容量和自动缩放的最大容量。
  • Shuffle 用量。所有预留 Shuffle 总使用率的最大值。
  • 并发数。同时运行的作业数上限。
  • 处理的字节数。已完成的作业处理的总字节数。
  • 作业时长。 作业完成的平均运行时间,根据创建作业开始到作业结束计算得出。
  • 总存储空间。上次更新时间的总活跃逻辑字节数。

视图中按位置或预留显示两个摘要表。 表中每一行代表一个位置或一个预留使用量。

这些表会显示上次更新之前的 30 分钟的指标。如果启用了实时数据,则数据每五分钟会自动刷新一次。如果停用实时数据,则最大数据过时大约为一小时。

如果指标高于阈值,则表单元格会进行颜色编码。所有阈值都是预定义的,无法自定义。如果重复作业的性能分析数量增加,并且高于正常指标值,系统会应用颜色代码。如果上次更新之前的 30 分钟内的指标值大于上周同一天用量的 P99 值,则表单元格标有深蓝色背景。如果 30 分钟内的指标值处于上周同一天用量的 P95 - P99 值之间,则表单元格标有浅蓝色背景。

BigQuery 管理摘要表。

过滤数据

您可以根据以下值过滤图表中的数据:

BigQuery 管理过滤数据。

  • 位置。提供组织在过去 30 天内有活动的区域。摘要视图显示区域级摘要表,用于跟踪所有有活动的区域中的用量。
  • 预留。此字段仅适用于详细视图。查看管理项目拥有的所有预留均可以使用。您只能选择一个预留。
  • 项目。此字段仅适用于详细视图。组织中所有有流量的项目均可使用。您只能选择一个项目。
  • 时间范围。此字段仅适用于详细视图。 它会影响详细视图中的 Metrics 时间表图错误圆环图指标时间表图中的数据规模会根据所选时间范围自动调整。

热门活跃查询图表

此图表显示了按降序排序的前 10 个具有活跃资源的作业。使用下拉菜单,您可以根据槽用量或作业时长选择排序选项。作业 ID 和相关资源用量编号显示在条形图中。在热门活跃查询图表中选择探索更多或作业 ID,以在 作业浏览器中查看更多详细信息。如需详细了解执行详情并诊断 BigQuery 作业的任何性能问题,请参阅查询执行图

BigQuery 管理热门作业列表栏。

错误圆环图

此图表显示了所选时间段内失败的主要原因比例。在摘要视图中,默认值为过去 30 分钟。在详细视图中,时间范围选择器可控制其覆盖率。 您可以按类型、所有者项目或预留对错误进行分组。 失败的作业数显示在圆环图中。

BigQuery 错误圆环图。

指标时间表图

这些图表显示最多 30 天的受支持指标概览。默认时间段为 1 小时。随着所选时间段的变化,图表中每个数据点的精细度会自动扩缩。

这些图表显示某个区域或预留的汇总值。 不支持显示多个区域或多个预留的数据。

BigQuery 指标时间表图。

指标时间表图支持以下指标:

  • 槽用量。所选时间段内的平均槽用量。该页面分别显示所有作业和失败作业的总体槽用量。
  • 作业并发数。在选定时间段内同时运行的作业数上限。这会单独显示正在运行的作业和待处理作业的计数,并显示为堆叠条形图。
  • 扫描的字节数。在选定时间段内已完成作业处理的总字节数。
  • Shuffle。选定时间段内所有预留平均 shuffle 使用率的最大值。
  • 作业时长。 所选时间段内作业的平均运行时间,根据作业创建时间到作业结束时间计算得出。
  • 按类型划分的错误。错误圆环图显示所选时间段内不同失败原因的比例。

除了指标趋势之外,这些图表还显示了上周同一天用量的 P95 和 P99 指标值的参考线。对于作业并发图表,则会显示待处理作业和运行作业总和的阈值。这些引用值用作摘要表中的颜色编码阈值。

如需详细了解图表,请点击探索更多。 系统会将您重定向至资源利用率标签页。

数据分析表

此表汇总了在所选时间段内执行作业期间收集的配额错误、访问权限被拒错误和效果分析数据。数据分析会在预订级别汇总。每行都提供有关数据分析类型、位置、预订、数据分析详情和示例作业 ID 的信息。点击作业 ID 可在作业探索器中查看更多作业详情。在摘要视图中,默认观察时间范围涵盖过去 30 分钟。在详细视图中,时间范围选择器可控制显示观察数据的具体时间段。

BigQuery 数据分析表。

监控单个项目的运行健康状况

如果您无权访问整个组织,或者您的项目没有任何预留,则系统会默认显示项目运行健康状况信息中心。此视图可帮助项目分析师监控其项目的系统运行状况,与组织级层的运行状况信息中心非常相似,但其图表和过滤条件中仅显示项目级数据。

查看资源利用率

管理资源图表中的数据基于 INFORMATION_SCHEMA.JOBS 视图INFORMATION_SCHEMA.JOBS_TIMELINE 视图,这些视图会实时更新,最多可回溯 30 天。

您可以使用管理资源图表来查看 BigQuery 资源利用率。这些资源图有以下三个主要的交互式组件:

  • 事件时间轴图表最多显示 30 天内的数据概览。默认设置为 1 天。

  • 主图表会显示一段时间内,为组织或预留管理项目选择的指标(槽用量、作业并发数、作业性能、错误或处理的字节数)。该图表包含一个与该图表中数据相关联的表格图例,其中显示了在一段时间内汇总的更详细的统计信息。

  • 用于选择不同图表、细分难度和过滤条件选项的侧边栏。

下图简要介绍了 BigQuery 中的各种管理图表选项:

BigQuery 管理资源图表概览。

须知事项

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

    您可以创建一个单独的 Google Cloud 预留管理项目,通过为其提供描述性名称(例如 bq-COMPANY_NAME-admin)来管理预留。
  2. Make sure that billing is enabled for your Google Cloud project.

  3. Enable the BigQuery Reservation API.

    Enable the API

    如需了解详情,请参阅启用 BigQuery Reservation API

  4. 在 Google Cloud 控制台中,查看槽配额:

    查看槽配额

    如需购买槽,您必须为要购买槽的区域提供足够的槽配额。

    如果区域的槽配额小于您要购买的槽数,请参阅申请增加配额

查看管理资源图表

默认情况下,从预留管理项目导航时,您可以访问版本管理资源图表。您可以在按需管理资源图表和预留管理项目(预览版)中的版本管理资源图表之间切换。

如需查看管理资源图表,请按以下步骤操作:

  1. 转到 BigQuery 页面。

    转到 BigQuery

  2. 在项目菜单中,选择用于购买槽和创建预留的管理项目。

  3. 在导航面板中,选择管理 > Monitoring

  4. 图表选项 > 范围部分中,您可以从列表中选择结算模式,其中包括三种类型的版本和按需版本。默认情况下,结算模式设置为企业版。

  5. 图表选项 > 图表配置部分中,执行以下操作:

    1. 图表列表中,选择图表类型。如需了解不同的图表选项,请参阅图表选项
    2. 指标列表中,选择可用的指标类型。
    3. 分组依据列表中,选择您要对图表中的数据进行分组依据的维度。如需了解不同的维度,请参阅按选项分组
    4. 过滤条件列表中,选择可用的过滤条件选项。如需了解不同的过滤条件,请参阅过滤条件和搜索
    5. 设置要在图表中查看数据的时间范围

图表配置

您可以通过更改以下图表配置选项来调整管理资源图表的视图:

图表选项

BigQuery 提供以下指标类型以显示在图表中:

  • 槽用量。平均槽用量。如果分组依据选项设为总体,或者过滤条件或单个预订,则系统还会显示容量和借用槽使用情况指标。

    • 总用量。所选时间段内的平均槽用量。
    • 借用槽用量。平均用量超出预留容量。这通常是从其他预订和承诺中借用的空闲槽,或者是使用数据中的舍入误差。
    • 预留容量。版本预订量。
    • 基准容量。预留的基准大小。
    • 自动扩缩容量。自动扩缩的槽大小。
    • 最大容量。用户可以访问的槽数上限。
  • 作业并发:在所选时间段内同时运行的作业数上限。

  • 作业性能:已完成作业的平均作业运行时间,从作业创建时间到作业结束时间计算得出。

  • 失败的作业:所选时间段内失败作业的平均槽用量。

  • 处理的字节数:在所选时段内已完成作业处理的总字节数。

  • Shuffle 用量:所选时间段内的平均 Shuffle 用量比率(预览版)。

表组件

表格中会显示与您在管理资源图表中选择的时间段和维度相关的指标。

槽用量图表显示在所选时间段内运行的所有作业的平均槽用量。在所选时间段内未完成的作业仅包含该时间段内使用的槽。

对于作业性能图表,表组件会显示以下指标:

  • 作业数:在所选时间段内已完成作业运行或部分运行的数量。

  • 平均作业时长:在所选时间段内至少部分运行的已完成作业的平均作业时长。

  • 中间值作业时长:在所选时间段内至少部分运行的已完成作业的中间值作业时长。

  • 最短作业时长:在所选时间段内至少部分运行的已完成作业的最短作业时长。此列在默认情况下处于隐藏状态,但您可以在列显示选项中启用此列。

  • 最长作业时长:在所选时间段内至少部分运行的已完成作业的最长作业时长。此列在默认情况下处于隐藏状态,但您可以在列显示选项中启用此列。

对于失败的作业数图表,表组件会显示以下数据:

  • 平均槽用量:与槽用量图表相同,但仅适用于失败的作业。

  • 失败的作业总数:在所选时段内失败的作业数量。

按选项分组

根据图表类型,您可以按多个维度对图表视图中的数据进行分组:

  • 整体视图:整体视图简要展示了整个组织在一段时间内的所选指标。对于槽使用情况,容量和用量显示在同一个图表上,方便您了解一段时间内槽总体利用率。

  • 项目。项目视图显示所选指标按项目分组的情况。如果组织的项目超过 10 个,则仅显示所选时间段内槽用量、作业并发性、作业持续时间或作业失败率最高的前 10 个项目。对于槽用量,所有其他项目都会被归入图表底部的其他类别,以方便与总体容量进行比较。

  • 所有其他分组依据视图与项目视图类似,数据按相应的维度进行分组。

时间范围选项

您可以通过以下方式修改时间段:

  • 选择时间段并将其拖动到事件时间轴图表中。

  • 选择时间段并将其拖动到主图表中。

校准时间段会随着所选时间范围的变化而自动更新。校准时间段越小,视图就越详细。如需更好地查看频繁更改的资源(例如槽用量选项),请缩短校准时间段。

要缩小图表数据的范围,请在过滤器面板中应用过滤器。 某些过滤条件仅适用于特定图表。预留文件夹项目用户过滤条件填充了在所选时间范围内消耗槽的相应资源。例如,如果某个项目在过去 30 天内未被使用过,则该项目不会显示在项目过滤条件列表中。

在应用过滤条件后,图表便会刷新,以显示所选参数中的数据。

查看项目级管理图表数据

您可以在图表选项中调整范围,以生成项目级管理图表的概览。此视图可帮助项目分析师监控拥有的项目的资源利用率,类似于组织级层的管理图表,但某些图表选项和分组依据选项不适用。此视图会显示上下文项目中的整体资源利用率,无论其采用的是哪种结算模式。

BigQuery 项目级管理资源图表概览。

从具有组织级权限的非管理员项目前往管理图表时,管理图表会默认切换到项目级。您可以使用图表选项中的范围下拉菜单切换回正确的视图。

结算

管理资源图表可免费使用。用于填充这些图表的查询不会计费,也不会使用用户拥有的预留中的槽。处理过多数据的查询会超时。

后续步骤