Dataflow 基于网络的监控界面包含一个信息中心,用于在项目级层监控您的 Dataflow 作业。这些图表显示了一个项目中所有作业的数据。
信息中心可帮助您完成以下任务:
- 检测并确定配额错误的来源。
- 检测作业中的异常横向自动扩缩功能。
- 识别流式作业运行缓慢或卡住。
信息中心使用 Cloud Monitoring 访问 Dataflow 作业指标。如需自定义图表中显示的信息,请使用 Metrics Explorer。
功能
信息中心包括以下功能:
- 使用正则表达式选择信息中心中显示的作业。
- 从各个图表访问作业详情页面。
- 自定义信息中心微件和图表。
所需的角色
如需获得查看图表数据所需的权限,请让管理员向您授予 Monitoring Viewer (roles/monitoring.viewer
) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
此预定义角色包含查看图表数据所需的 monitoring.timeSeries.list
权限。
指标
默认情况下,以下图表将显示在信息中心内。如需详细了解显示的指标,请参阅作业指标。
图表 | 说明 | 支持 |
---|---|---|
运行作业 | 显示项目中运行的作业数量的时间序列图表。 | 批量作业和流式作业 |
每个作业的工作器数 | 显示每个作业使用的工作器数量的时间序列图表。使用此图表可了解整个项目中的自动扩缩行为。您可以查看作业是否出现意外或异常扩缩行为。 将此图表与配额和 CPU 图表结合使用,即可确定扩缩受配额错误限制的作业。 |
批量作业和流式作业 |
“已超出配额”错误 | 显示项目中配额超出错误的历史记录的时间序列图表,范围限定为 Compute Engine CPU 配额。Compute Engine 具有每个区域的总 CPU 配额,对于某些机器系列,还包括每个区域和每种类型的配额。其中任何配额都可能会阻止作业启动或纵向扩容。 将此图表与配额和 CPU 图表结合使用,以确定配额错误的来源。 |
批量作业和流式作业 |
每个作业的 CPU 数 | 显示每个作业的工作器使用的 CPU 数量的时间序列图表。此图表还显示了每个作业的机器类型和位置。同一系列中的机器类型具有不同数量的 CPU。CPU 总数会影响 Compute Engine 的配额。 使用此图表来识别配额错误的来源。 |
批量作业和流式作业 |
系统延迟时间 | 显示每个作业的数据项已处理或等待处理的最大秒数的时间序列图表。 使用此图表可以识别数据出现在源中和写入所有接收器之间存在异常延迟的流式作业。 |
流式作业 |
数据新鲜度 | 显示每个作业中任何阶段的最大数据新鲜度的时间序列图表。 使用此图表查找速度可能较慢或卡住的流式作业。 |
流式作业 |
最大积压字节数 | 显示每个作业中任何阶段的积压字节数上限的时间序列图表。 使用此图表来识别指示处理瓶颈的异常情况。 |
流式作业 |
访问信息中心
要访问信息中心,请按以下步骤操作:
- 登录 Google Cloud 控制台。
- 选择您的 Google Cloud 项目。
- 打开导航菜单。
- 在 Analytics 中,点击 Dataflow。
在 Dataflow 导航菜单中,点击 Monitoring。
自定义信息中心
您可以自定义信息中心内容和图表中显示的信息。修改信息中心时,系统会创建一个新的自定义信息中心。
信息中心使用 Cloud Monitoring 访问 Dataflow 作业指标。使用 Cloud Monitoring 工具自定义图表。
- 打开信息中心,然后点击自定义信息中心。
- 修改信息中心。
- 如需过滤信息中心上显示的作业,请参阅向临时信息中心添加临时过滤条件和向自定义信息中心添加永久过滤条件。
- 如需修改或移除微件,请参阅管理信息中心微件。
- 如需修改图表的内容,请参阅为信息中心上的图表选择指标。
- 如需将图表添加到信息中心,请参阅将图表和表格添加到自定义信息中心。
- 点击保存,然后点击查看自定义信息中心。
创建自定义信息中心后,要返回默认信息中心,请在信息中心菜单中选择预定义。
问题排查
本部分介绍如何排查常见问题
无可用数据
打开信息中心时,一个或多个图表会显示以下消息:
No data is available for the selected time frame.
当图表涵盖的时间段没有任何数据时,会显示此消息。如需解决此问题,请更改或扩大时间范围。
如需更改显示的时间范围,请点击图表上的探索数据,然后使用时间范围选择器。
无法恢复已删除的微件
从信息中心中移除微件时,您可以创建自定义信息中心。创建自定义信息中心后,要返回默认信息中心,请在信息中心菜单中选择预定义。
无法查看图表
如需查看图表数据,您需要拥有 monitoring.timeSeries.list
权限。如需了解详情,请参阅必需的角色。
后续步骤
- 详细了解各个作业指标。
- 使用 Cloud Monitoring 探索指标。
- 排查作业缓慢或卡住的问题。