获取查询性能数据分析

查询的执行图是 BigQuery 执行查询所需的步骤的可视化表示法。本文档介绍了如何使用查询执行图来诊断查询性能问题，以及如何查看查询性能数据分析。

BigQuery 可提供强大的查询性能，但它也是一个复杂的分布式系统，其中包含许多可能会影响查询速度的内部和外部因素。SQL 的声明性特征也会隐藏查询执行的复杂性。这意味着，如果查询的运行速度比预期慢或比之前的运行慢，则了解发生的情况可能存在一定的难度。

查询执行图提供了一个动态图形界面，可用于检查查询计划和查询性能详情。您可以查看任何正在运行或已完成的查询的查询执行图。

您还可以使用查询执行图来获取查询的性能数据分析。性能数据分析会尽力提供建议来帮助您提升查询性能。由于查询性能是多方面的，因此性能数据分析可能只提供整体查询性能的部分视图。

所需权限

如需使用查询执行图，您必须具有以下权限：

bigquery.jobs.get
bigquery.jobs.listAll

这些权限可通过以下 BigQuery 预定义 Identity and Access Management (IAM) 角色获得：

roles/bigquery.admin
roles/bigquery.resourceAdmin
roles/bigquery.resourceEditor
roles/bigquery.resourceViewer

执行图结构

查询执行图在控制台中提供了查询计划的图形视图。每个框都表示查询计划中的阶段，如下所示：

输入：从表格中读取数据或选择特定列
联接：根据 JOIN 条件合并两个表中的数据
汇总：执行 SUM 等计算
排序：对结果进行排序

阶段由步骤组成，这些步骤描述了阶段中每个工作器执行的各项操作。您可以点击某个阶段将其打开，然后查看其步骤。阶段还包含相对和绝对时间信息。阶段名称概括了它们执行的步骤。例如，名称中包含联接的阶段意味着该阶段的主要步骤是 JOIN 操作。阶段名称末尾带有 + 表示该阶段执行了其他重要步骤。例如，名称中包含 JOIN+ 的阶段表示该阶段执行了联接操作和其他重要步骤。

连接各阶段的线表示各阶段之间交换的中间数据。BigQuery 会在阶段执行期间将中间数据存储在 Shuffle 内存中。边缘上的数字表示各阶段之间交换的行数的估算值。随机播放内存配额与分配给账号的槽位数量相关。如果超出 Shuffle 配额，Shuffle 内存可能会溢出到磁盘，并导致查询性能急剧下降。

查看查询性能数据分析

控制台

如需查看查询性能数据分析，请按照以下步骤操作：

在 Google Cloud 控制台中打开 BigQuery 页面。

转到 BigQuery 页面
在左侧窗格中，点击 Explorer：

如果您没有看到左侧窗格，请点击 展开左侧窗格以打开该窗格。
在探索器窗格中，点击作业记录。
点击个人记录或项目历史记录。
在作业列表中，找到您感兴趣的查询作业。点击操作，然后选择在编辑器中查看作业。
选择执行图标签页以查看图形表示的每个查询阶段：

如需确定查询阶段是否存在性能数据分析，请查看查询阶段显示的图标。具有信息图标的阶段存在性能数据分析。具有对勾图标的阶段则不存在。
点击一个阶段可打开该阶段的详情窗格，您可以在其中查看以下信息：
- 该阶段的查询计划信息。
- 在该阶段中执行的步骤。
- 所有适用的性能数据分析。
可选：如果您要检查正在运行的查询，请点击同步以更新执行图，从而反映该查询的当前状态。
可选：如需在执行图上按阶段时长突出显示热门阶段，请点击按时长突出显示热门阶段。
可选：如需在执行图上按槽使用时间突出显示热门阶段，请点击按处理突出显示热门阶段。
可选：如需在执行图上添加 Shuffle 重新分布阶段，请点击显示 Shuffle 重新分布阶段。

使用此选项可显示默认执行图中隐藏的重新分区和合并阶段。

重新分区和合并阶段是在查询运行时引入的，用于改善处理查询的各个工作器之间的数据分布。由于这些阶段与查询文本无关，因此它们处于隐藏状态，以简化显示的查询计划。

对于存在性能回归问题的任何查询，性能数据分析也会显示在该查询的作业信息标签页上：

作业信息标签页。

SQL

在 Google Cloud 控制台中，前往 BigQuery 页面。

转到 BigQuery

在查询编辑器中，输入以下语句：

SELECT
  `bigquery-public-data`.persistent_udfs.job_url(
    project_id || ':us.' || job_id) AS job_url,
  query_info.performance_insights
FROM
  `region-REGION_NAME`.INFORMATION_SCHEMA.JOBS_BY_PROJECT
WHERE
  DATE(creation_time) >= CURRENT_DATE - 30 -- scan 30 days of query history
  AND job_type = 'QUERY'
  AND state = 'DONE'
  AND error_result IS NULL
  AND statement_type != 'SCRIPT'
  AND EXISTS ( -- Only include queries which had performance insights
    SELECT 1
    FROM UNNEST(
      query_info.performance_insights.stage_performance_standalone_insights
    )
    WHERE
      slot_contention
      OR insufficient_shuffle_quota
      OR bi_engine_reasons IS NOT NULL
      OR high_cardinality_joins IS NOT NULL
      OR partition_skew IS NOT NULL
    UNION ALL
    SELECT 1
    FROM UNNEST(
      query_info.performance_insights.stage_performance_change_insights
    )
    WHERE input_data_change.records_read_diff_percentage IS NOT NULL
  );

点击运行。

如需详细了解如何运行查询，请参阅运行交互式查询。

API

您可以通过调用 jobs.list API 方法并检查返回的 JobStatistics2 信息，以非图形格式获取查询性能数据分析。

解读查询性能数据分析

本部分可让您详细了解性能数据分析的含义以及如何执行性能数据分析。

性能数据分析适用于两个受众群体：

分析师：您在项目中运行查询。您想找出之前运行的查询速度意外变慢的原因，并想获得有关如何提高查询性能的提示。您拥有所需权限中所述的权限。
数据湖或数据仓库管理员：您管理组织的 BigQuery 资源和预留。您拥有与 BigQuery Admin 角色关联的权限。

以下每个部分都提供了指导，说明您可以根据自己担任的这些角色中的哪些角色来利用您收到的性能数据分析。

槽争用

在运行查询时，BigQuery 会尝试将查询所需的工作分解为任务。任务是输入到阶段以及从阶段输出的单个数据切片。单个槽会获取任务并为阶段执行该数据切片。理想情况下，BigQuery 槽会并行执行这些任务，以实现高性能。当您的查询有许多任务准备开始执行，但 BigQuery 无法获得足够的可用槽来执行它们时，就会发生槽争用现象。

如果您是分析师，该怎么做？

按照减少查询中处理的数据量中的指导，减少查询中处理的数据量。

如果您是管理员，该怎么做？

通过执行以下操作来提高槽可用性或减少槽用量：

如果您使用 BigQuery 的按需价格，则查询会使用共享槽池。请考虑改为购买预留以改用基于容量的分析价格。借助预留，您可以为组织的查询预留专用槽。
如果您使用的是 BigQuery 预留，请确保预留中有足够的槽分配给运行查询的项目。在以下情况下，预留可能没有足够的槽：
- 还有其他作业正在使用预留槽。您可以使用 Admin 资源图表来了解您的组织如何使用预留。
- 预留没有分配足够的槽，无法足够快地运行查询。您可以使用槽 Estimator 来估算您的预留应该有多大才能高效地处理您的查询任务。
为此，您可以尝试以下解决方案之一：
- 向该预留添加更多槽（基准槽或预留槽数上限）。
- 创建其他预留并将其分配给运行查询的项目。
- 将资源密集型查询分散到预留内的不同时间或者分散到不同的预留中。
确保您要查询的表已进行聚类。聚类有助于确保 BigQuery 可以快速读取包含相关数据的列。
确保您要查询的表已进行分区。对于未分区的表，BigQuery 会读取整个表。对表进行分区有助于确保您仅查询自己感兴趣的表的子集。

shuffle 配额不足

在运行查询之前，BigQuery 会将查询的逻辑分解为阶段。BigQuery 槽会为每个阶段执行任务。槽执行完阶段任务后，会将中间结果存储在 shuffle 中。查询中的后续阶段会从 shuffle 读取数据，以继续执行查询。如果需要写入 shuffle 的数据多于 shuffle 容量时，就会出现 shuffle 配额不足问题。

如果您是分析师，该怎么做？

与槽争用类似，减少查询处理的数据量可能会减少 shuffle 使用量。为此，请按照减少查询中处理的数据量中的指导操作。

SQL 中的某些操作往往更广泛地使用 shuffle，尤其是 JOIN 操作和 GROUP BY 子句。如果可能，减少这些操作中的数据量可能会减少 shuffle 用量。

如果您是管理员，该怎么做？

执行以下操作以减少 shuffle 配额争用现象：

与槽争用类似，如果您使用 BigQuery 的按需价格，则查询会使用共享槽池。请考虑改为购买预留以改用基于容量的分析价格。预留可以为您的项目查询提供专用槽和 shuffle 容量。
如果您使用的是 BigQuery 预留，则槽附带专用的 shuffle 容量。如果您的预留正在运行一些广泛使用 shuffle 的查询，则可能会导致其他并行运行的查询无法获得足够的 shuffle 容量。您可以通过查询 INFORMATION_SCHEMA.JOBS_TIMELINE 视图中的 period_shuffle_ram_usage_ratio 列来确定哪些作业广泛使用 Shuffle 容量。

为此，您可以尝试以下一种或多种解决方案：
- 向该预留添加更多槽。
- 创建其他预留并将其分配给运行查询的项目。
- 将 shuffle 密集型查询分散到预留内的不同时间或者分散到不同的预留中。

数据输入缩放变化

此性能数据分析表明，您的查询读取给定输入表的数据比上次运行查询至少多 50%。您可以使用表更改历史记录来查看查询中使用的任何表的大小是否在最近有所增加。

如果您是分析师，该怎么做？

按照减少查询中处理的数据量中的指导，减少查询中处理的数据量。

高基数联接

如果查询包含的联接在联接两端具有非唯一键，则输出表的大小可能会远大于任一输入表的大小。此数据分析表明输出行与输入行的比率较高，并提供了有关这些行数的信息。

如果您是分析师，该怎么做？

检查联接条件，以确认输出表的大小预计会增加。避免使用交叉联接。如果必须使用交叉联接，请尝试使用 GROUP BY 子句预先聚合结果，或使用窗口函数。如需了解详情，请参阅使用 JOIN 前减少数据。

分区偏差

如需针对此功能提供反馈或请求支持，请发送电子邮件至 bq-query-inspector-feedback@google.com。

数据分布偏差可能会导致查询运行缓慢。执行查询时，BigQuery 会将数据拆分为多个小分区以进行并行处理。如果数据在这些分区中的分布不均匀，就会发生倾斜，这通常是由于联接键或分组键中存在频繁出现的值，导致某些分区明显大于其他分区。由于单个槽会处理整个分区，并且无法共享工作，因此过大的分区可能会减慢处理速度、导致“资源超出”错误，在极端情况下甚至会导致槽崩溃。

运行 JOIN 操作时，BigQuery 会根据联接键对联接左侧和右侧的数据进行分区。如果分区过大，BigQuery 会尝试重新平衡数据。如果倾斜过于严重，无法完全重新均衡，则分区倾斜数据分析会添加到执行图中的 JOIN 阶段。

识别分区倾斜

使用 BigQuery Studio 中的执行图标签页，找出查询的哪个阶段出现了分区倾斜。数据分析在舞台上被标记。通过阶段详细信息，您可以确定查询文本的相关部分以及正在处理的表。如需了解详情，请参阅了解包含查询文本的步骤。

示例

以下查询将代码库信息与文件信息联接起来。如果某些代码库的文件数量远多于其他代码库，则可能会出现倾斜。

SELECT r.repo_name, COUNT(f.path) AS file_count
FROM `bigquery-public-data.github_repos.sample_repos` AS r
JOIN `bigquery-public-data.github_repos.sample_files` AS f
  ON r.repo_name = f.repo_name
WHERE r.watch_count > 10
GROUP BY r.repo_name

联接键为 repo_name。在 sample_repos 表中，repo_name 应是唯一的。不过，在 sample_files 表中，repo_name 可以多次出现。如果少数几个 repo_name 值在 sample_files 中出现的频率过高，就会造成数据倾斜。

如需确认是否存在数据倾斜，请分析较大表（在本例中为 sample_files）中联接键的分布。运行以下查询以评估 repo_name 的分布情况：

SELECT repo_name, COUNT(*) AS occurrences
FROM `bigquery-public-data.github_repos.sample_files`
GROUP BY repo_name
ORDER BY occurrences DESC

对于非常大的表，请使用 APPROX_TOP_COUNT 函数高效估计最频繁的值。

SELECT APPROX_TOP_COUNT(repo_name, 100)
FROM `bigquery-public-data.github_repos.sample_files`

如果前几个值的数量比其他值大几个数量级，则存在数据倾斜。

缓解分区倾斜

您可以使用以下策略来解决分区倾斜问题：

尽早过滤数据。在查询中尽早应用过滤条件，以减少处理的数据量。这样可以减少与倾斜键关联的行数，然后再执行 JOIN 或 GROUP BY 等操作。

拆分查询以隔离倾斜的键。如果倾斜是由一些特定的键值（类似于上例中的 repo_name 字段）引起的，请考虑拆分查询。将倾斜键的数据与其余数据分开处理，然后使用 UNION ALL 合并结果。

示例：隔离常用键。

-- Query for the skewed key
SELECT r.repo_name, COUNT(f.path) AS file_count
FROM `bigquery-public-data.github_repos.sample_repos` AS r
JOIN `bigquery-public-data.github_repos.sample_files` AS f
  ON r.repo_name = f.repo_name
WHERE r.watch_count > 10 AND r.repo_name = 'popular_repo'
GROUP BY r.repo_name

UNION ALL

-- Query for all other keys
SELECT r.repo_name, COUNT(f.path) AS file_count
FROM `bigquery-public-data.github_repos.sample_repos` AS r
JOIN `bigquery-public-data.github_repos.sample_files` AS f
  ON r.repo_name = f.repo_name
WHERE r.watch_count > 10 AND r.repo_name != 'popular_repo'
GROUP BY r.repo_name

处理 NULL 和默认值：倾斜的一个常见原因是，关键列中包含大量具有 NULL 或空字符串值的行。如果您不需要这些行进行分析，请在 JOIN 或 GROUP BY 之前使用 WHERE 子句过滤掉这些行。
重新排序操作：在包含多个联接的查询中，顺序可能很重要。如果可能，请在查询中尽早执行可显著减少行数的联接。
使用近似函数：对于倾斜数据的聚合，请考虑是否可以接受近似结果。与 COUNT(DISTINCT) 等精确函数相比，APPROX_COUNT_DISTINCT 等函数对数据倾斜的容忍度更高。

解读查询阶段信息

除了使用查询性能数据分析之外，在查看查询阶段详细信息时，您还可以遵循以下准则，以帮助确定查询是否存在问题：

如果一个或多个阶段的等待时间（毫秒）值高于查询先前的运行：
- 查看您是否有足够的槽来容纳您的工作负载。如果没有，请在运行资源密集型查询时进行负载均衡，使其不会相互竞争。
- 如果等待时间（毫秒）值高于之前一个阶段的值，请查看它之前的阶段，看看是否引入了瓶颈。对查询中涉及的表的数据或架构进行重大更改等事件可能会影响查询性能。
如果某个阶段的 Shuffle 输出字节数值高于查询先前的运行，或高于先前的阶段，请评估该阶段中处理的步骤，看看是否有任何步骤造成数据量意外增加。造成这种情况的一个常见原因是某个步骤处理 INNER JOIN，而其中联接的两端存在重复键。这可能会导致返回的数据量意外增加。
使用执行图按时长和处理查看热门阶段。请考虑这些阶段生成的数据量，以及数据量是否与查询中引用的表大小相匹配。如果不匹配，请查看这些阶段中执行的步骤，看看是否有任何步骤可能产生意外的临时数据。

后续步骤

如需了解有关提升查询性能的提示，请查看查询优化准则。