适用于 Apache Flink 的 BigQuery 引擎指标

您可以在 Google Cloud 控制台的适用于 Apache Flink 部署和作业的 BigQuery Engine 的指标标签页中查看图表。

部署指标:

作业指标:

自动扩缩指标:

支持和限制

若要将自定义指标从适用于 Apache Flink 的 BigQuery 引擎作业导出到 Cloud Monitoring,受管 Flink 默认工作负载身份必须具有 IAM 角色 roles/monitoring.metricWriter

访问作业指标

  1. 登录 Google Cloud 控制台。
  2. 选择您的 Google Cloud 项目。
  3. 打开导航菜单,然后选择 BigQuery Engine for Apache Flink
  4. 点击部署作业
  5. 在部署或作业列表中,点击相应名称。
  6. 点击指标标签页。

如需访问作业指标图表中的其他信息,请点击 探索数据

使用 Cloud Monitoring

适用于 Apache Flink 的 BigQuery 引擎与 Cloud Monitoring 完全集成。使用 Metrics Explorer 构建查询并调整指标的时间范围。

如需了解如何使用 Metrics Explorer,请参阅将 Cloud Monitoring 与适用于 Apache Flink 的 BigQuery 引擎搭配使用

在 Metrics Explorer 中查看

您可以在 Metrics Explorer 中查看适用于 Apache Flink 的 BigQuery 引擎指标图表,您可以在其中构建查询并调整指标的时间范围。

如需在 Metrics Explorer 中查看适用于 Apache Flink 的 BigQuery Engine 图表,请在指标视图中打开 更多图表选项,然后点击 在 Metrics Explorer 中查看

调整指标的时间范围时,您可以选择预定义的持续时间或自定义时间间隔来分析作业。

部署指标

部署详情中的指标标签页包含以下图表。

CPU 利用率

CPU 利用率是指部署在每个时间点使用的 CPU 量。您可以使用此图表跟踪 CPU 使用情况随时间的变化。

内存利用率

内存利用率是部署在每个时间点使用的内存量。使用此图表可跟踪内存用量随时间的变化情况。

作业指标

作业详情中的指标标签页包含以下图表。您可以使用这些指标监控和调试适用于 Apache Flink 的 BigQuery 引擎作业。

每秒的传入记录数

每秒的传入记录数是指作业中每个操作器在每个时间点接收的记录数。数据会按运营商进行拆分,每个运营商在图表上都有一条单独的线条。

此指标显示作业是否正在运行和处理记录。

  • 如果您在下游系统中没有看到数据,或者输入水印已过时,请参阅此图表。
  • 使用此指标可验证作业是否以预期的速率提取记录。

每秒的传出记录数

每秒的传出记录数是指作业中每个操作器在每个时间点发送的记录数。数据会按运营商进行拆分,每个运营商在图表上都有一条单独的线条。

此指标显示作业是否正在输出记录。

  • 如果您在下游系统中没有看到数据,或者输出水印已过时,请参阅此图表。
  • 使用此指标可验证作业是否以预期的速率处理记录。

输入水印

输入水印是每个操作器收到的最新水印,以自 Unix 纪元(世界协调时间 [UTC] 1970 年 1 月 1 日 00:00:00)以来的毫秒数表示,忽略闰秒。数据会按运营商进行拆分,每个运营商在图表上都有一条单独的线条。

此指标可确认作业是否在取得进展。健康的水印会随着时间的推移而增加。

  • 如果输入和输出水印已过时,作业处理可能会卡住。
  • 此指标表示作业何时卡住以及卡住的位置。

输出水印

输出水印是每个操作器输出的最新水印,以自 Unix 纪元(世界协调时间 [UTC] 1970 年 1 月 1 日 00:00:00)以来的毫秒数表示,忽略闰秒。数据会按运营商进行拆分,每个运营商在图表上都有一条单独的线条。

此指标可确认作业是否在取得进展。健康的水印会随着时间的推移而增加。

  • 此指标表示作业何时卡住以及卡住的位置。
  • 如果输入和输出水印已过时,作业处理可能会卡住。
  • 如果输入正在进行,但输出水印已过时,则表示作业正在提取数据,但未输出数据。

Vertex 指标

您可以查看作业图中各个顶点(节点)的指标。如需查看顶点指标,请执行以下操作:

  1. 在作业列表中,点击作业名称。图表标签页会显示作业图。
  2. 在作业图表中,点击顶点。顶点指标显示在顶点信息面板中。

系统会显示以下指标。

当前并行数量

分配给此顶点的任务槽数。

输入水印

自 Unix 纪元以来,此操作器接收的最后一个水印(以毫秒为单位,忽略闰秒)。

积压元素

运算符的积压元素数量。此指标仅适用于 Apache Kafka 来源。

每秒状态毫秒数

上一秒内此 Vertex 处于以下各个状态的毫秒数:

  • backpressured。顶点正在等待下游顶点完成。
  • busy。顶点正在处理数据。
  • idle。顶点没有要执行的工作。

由于顶点可以包含子任务,因此总值可能超过 1, 000 毫秒。

输入指标

如果顶点有输入,您可以从以下图表中进行选择:

  • 记录。此顶点提取的记录总数。
  • 输入字节数。此顶点提取的总字节数。

输出指标

如果顶点有输出,您可以从以下图表中进行选择:

  • 记录输出。此顶点输出的记录总数。
  • 输出字节数。此顶点输出的总字节数。

自动扩缩指标

在“作业指标”标签页中,自动扩缩图表会提供有关作业的自动扩缩行为的信息。

当前并行数量

当前并行度图表显示作业在任何时间点使用的任务槽数量。您可以使用此图表了解作业是扩容还是缩容。

建议的并行度图表显示自动扩缩器建议的任务槽数。为作业启用自动扩缩后,适用于 Apache Flink 的 BigQuery 引擎会尝试分配与建议的并行度相同的任务槽数量。当前并行度指标会显示当前的任务槽数。此值可能会低于建议的并行度。

建议的并行数量始终大于或等于最小并行数量,并且始终小于或等于最大并行数量。

如果建议的并行度始终接近上限,请考虑将作业的并行度上限设为更高值。作为回应,自动扩缩器可能会提高建议的并行度,以充分利用额外的槽位。如需了解详情,请参阅更新自动扩缩功能

并行数量上限

并行数量上限图表显示作业在任何时间点可用的任务槽数上限。

并行数量下限

并行数量下限图表显示作业在任何时间点可用的任务槽数下限。