本文档介绍如何查看、调查和管理基于指标的提醒政策的突发事件。
准备工作
确保您拥有所需的权限:
-
如需获取使用 Google Cloud 控制台查看突发事件所需的权限,请让管理员授予您项目的以下 IAM 角色:
-
Monitoring Cloud Console Incident Viewer (
roles/monitoring.cloudConsoleIncidentViewer
) -
Stackdriver Accounts Viewer (
roles/stackdriver.accounts.viewer
)
如需详细了解如何授予角色,请参阅管理访问权限。
-
Monitoring Cloud Console Incident Viewer (
-
如需获取使用 Google Cloud 控制台管理突发事件所需的权限,请让管理员授予您项目的以下 IAM 角色:
-
Monitoring Cloud Console Incident Editor (
roles/monitoring.cloudConsoleIncidentEditor
) -
Stackdriver Accounts Viewer (
roles/stackdriver.accounts.viewer
)
如需详细了解如何授予角色,请参阅管理访问权限。
-
Monitoring Cloud Console Incident Editor (
如需详细了解 Cloud Monitoring 角色,请参阅使用 Identity and Access Management 控制访问权限。
查找突发事件
如需查看突发事件列表,请执行以下操作:
-
在 Google Cloud 控制台的导航面板中,选择 Monitoring,然后选择 notifications 提醒:
- 摘要窗格列出了未结突发事件的数量。
- 突发事件窗格会显示最近的未结突发事件。如需在表格中列出最近的突发事件(包括已关闭的突发事件),请点击显示已关闭的突发事件。
可选:如需查看特定突发事件的详细信息,请在列表中选择相应突发事件。系统会打开突发事件详情页面。如需了解本页面,请参阅本页面的调查突发事件部分。
查找较早的突发事件
提醒页面上的突发事件窗格显示最近未结的突发事件。要查找较早的突发事件,请执行以下任一操作:
如需分页浏览突发事件表中的条目,请点击 arrow_back_ios 较新或 arrow_forward_ios 较早。
要导航到突发事件页面,请点击查看所有突发事件。在突发事件页面中,您可以执行以下操作:
过滤事件
当您在过滤栏中输入值时,只有与过滤条件匹配的突发事件会列在突发事件表中。如果您添加了多个过滤条件,则只有在满足所有过滤条件的情况下,系统才会显示突发事件。
如需添加突发事件表的过滤条件,请执行以下操作:
在突发事件页面上,点击 filter_list 过滤表,然后选择过滤条件属性。过滤条件属性包括以下所有内容:
- 突发事件的状态
- 提醒政策的名称
- 突发事件打开或关闭的时间
- 指标类型
- 资源类型
从二级菜单中选择一个值,或在过滤栏中输入一个值。
例如,如果您选择指标类型并输入
usage_time
,则只能在二级菜单中看到以下选项:agent.googleapis.com/cpu/usage_time compute.googleapis.com/guest/container/cpu/usage_time container.googleapis.com/container/cpu/usage_time
调查突发事件
找到要调查的突发事件后,请转到该事件的突发事件详情页面。如需查看详细信息,请在 Alerting 页面或 Incidents 页面的突发事件表格中选择突发事件摘要。
或者,如果您收到了包含突发事件链接的通知,则可以使用该链接查看突发事件详情。
突发事件详情页面提供以下信息:
状态信息,包括:
- 名称:触发此突发事件的提醒政策的名称。
- 状态:突发事件的状态:未结、已确认或已关闭。
- 严重程度:突发事件的严重程度:
- 无严重级别
- 严重
- 错误
- 警告
- 持续时间:突发事件持续的时长。
导致突发事件的提醒政策的相关信息:
条件窗格:标识导致突发事件的提醒政策中的条件。
消息窗格:基于提醒政策中的条件配置的简要原因说明。此窗格会始终填充内容。
文档窗格:显示您在创建提醒政策时提供的通知的文档模板。此信息可能包括对提醒政策监控内容的说明,以及关于应对措施的提示。
如果您在创建提醒政策时跳过了此字段,则此窗格会报告“未配置任何文档”。
- 标签:报告以下内容:
受监控的资源的标签和值以及导致突发事件的时序的指标。此信息可帮助您识别导致突发事件的特定受监控资源。
在指标标签文档中使用变量时,如果标签值不是以数字、字母、正斜杠 (
/
) 或等号 (=
) 开头,则 Monitoring 会忽略通知中的标签。- 您在提醒政策中定义的任何用户指定的标签和值。您可以使用这些标签来组织和识别提醒政策。与政策关联的标签列于政策标签部分,而条件中定义的标签列于指标标签部分。仅当存在依赖于该标签的过滤条件或分组时,才会显示元数据标签。如需了解详情,请参阅使用标签注释提醒。
突发事件详情页面还提供用于调查突发事件的工具:
-
突发事件时间轴:显示突发事件的两个直观表示:
- 在时间轴上,红色条表示突发事件的时间;条形的长度和位置反映突发事件的时长。
- 图表显示导致突发事件的提醒政策使用的时间序列数据和阈值。当某些时序符合提醒政策的条件时,系统会打开突发事件。
时间轴通过两个带有标签的点表示突发事件的持续时间。这些点在时间轴上的位置决定了突发事件时间轴下方的图表显示的数据的范围。默认情况下,一个点位于突发事件的打开时间,另一个点位于突发事件的关闭时间,如果突发事件仍处于打开状态,则另一个点位于当前时间。
您可以修改突发事件时间轴和图表的时间范围:
-
如需更改图表上显示的时间范围,请沿时间轴拖动任意一个点。通过这种方法,您可以重点关注特定时间间隔,例如突发事件前后的时段。
通过拖动轴上的点可以更改图表,进而在时间范围菜单中设置自定义值以及停用该菜单。要启用时间范围菜单,请点击重置。
- 要更改时间轴上显示的时间范围,请从时间范围菜单中选择一个范围。
- 其他问题排查工具的链接。项目和提醒政策的配置以及突发事件的持续时间决定了可用的链接。
- 如需查看提醒政策的详情页面,请点击查看政策。
- 要修改提醒政策的定义,请点击修改政策。
- 如需转到资源的性能信息中心,请点击查看资源详细信息。
- 如需在日志浏览器中查看相关日志条目,请点击查看日志。如需了解详情,请参阅使用日志浏览器查看日志。
- 如需调查图表中的数据,请点击在 Metrics Explorer 中查看。
- 注释:提供有关突发事件调查的发现、结果、建议或其他评论的日志。
- 要添加注解,请在字段中输入文本,然后点击添加注解。
- 要舍弃评论,请点击取消。
管理突发事件
突发事件具有以下状态之一:
error 待处理: 已满足提醒政策的一组条件,或者没有数据表明不再满足该条件。 如果提醒政策包含多个条件,则会创建突发事件,具体取决于这些条件的组合。如需了解详情,请参阅包含多个条件的政策。
warning已确认:该突发事件为未结状态,并被标记为已确认。通常,此状态表示正在调查突发事件。
check_circle 已结束: 系统观察到条件不再满足,您已结束突发事件,或者在 7 天内没有观察结果表明条件仍得到满足。
例如,如果您创建一个提醒政策,以便在错误数量大于 0 时通知您,请确保该政策在没有任何错误时生成错误数量为 0。如果提醒政策在无错误状态下返回 null 或空,则没有信号可以指示错误何时停止。在某些情况下,Monitoring Query Language (MQL) 支持指定在没有测量值可用时的默认值。如需查看示例,请参阅使用宽高比。
确认突发事件
我们建议您在开始调查突发事件的原因时将突发事件标记为已确认。
如需将突发事件标记为已确认,请执行以下操作:
- 在提醒页面的突发事件窗格中,点击查看所有突发事件。
在突发事件页面上,找到要确认的突发事件,然后执行以下操作之一:
- 点击 more_vert 更多选项,然后选择确认。
- 打开突发事件的详细信息页面,然后点击确认突发事件。
如果您的提醒政策配置为发送重复通知,则确认突发事件不会停止通知。如需停止此类通知,请执行以下操作之一:
- 为提醒政策创建延后。
- 停用提醒政策。
延后提醒政策
如需阻止 Monitoring 在特定时间段内创建突发事件和发送通知,请延后相关提醒政策。如果您延后提醒政策,Monitoring 还会关闭与该提醒政策相关的所有突发事件。
如需针对您正在查看的突发事件创建延后,请执行以下操作:
在突发事件详情页面上,点击延后。
选择延后时长。选择延后持续时间后,延后会立即开始。
查看突发事件的详情页面时,可以点击延后并选择时长,为相关提醒政策创建延后。延后会立即开始。您还可以在突发事件页面中延后提醒政策,方法是找到要延后的突发事件,点击 more_vert 更多选项,然后选择延后。您可以在服务中断期间暂停提醒政策,以防止在问题排查过程中收到更多通知。
关闭突发事件
您可以让 Monitoring 为您关闭突发事件,也可以在观察数据停止到达后关闭突发事件。如果关闭一个突发事件,然后收到表明条件满足的数据,系统会创建一个新突发事件。关闭突发事件时,该操作不会关闭针对同一条件未结的任何其他突发事件。如果延后提醒政策,则未解决的突发事件会在延后开始时关闭。
当发生以下任一情况时,Monitoring 会自动结束突发事件:
指标阈值条件:
- 到达观察结果,指示未违反阈值。
没有任何观察结果到达,条件被配置为在观察结果不再到达时关闭事件,并且底层资源的状态未知或未停用。
在提醒政策的自动关闭期间内没有任何观察结果,并且条件未配置为在观察结果停止到达时自动关闭事件。如需配置自动关闭时长,您可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。自动关闭时长下限为 30 分钟。
指标缺失条件:
- 发生观察。
- 在提醒政策的自动关闭时长到期后的 24 小时内,没有任何观察结果。如需配置自动关闭时长,您可以使用 Google Cloud 控制台或 Cloud Monitoring API。默认情况下,自动关闭时长为 7 天。
预测条件:
- 系统会生成一次预测,并预测时序不会超出预测时间范围内的阈值。
在 10 分钟内没有任何观察结果到达,条件被配置为在观察结果停止到达时关闭事件,并且底层资源的状态未知或未停用。
在提醒政策的自动关闭期间内没有任何观察结果,并且条件未配置为在观察结果停止到达时自动关闭事件。
例如,由于 HTTP 响应延迟时间超过 2 秒且持续 10 分钟,提醒政策生成了突发事件。如果 HTTP 响应延迟时间的下一次测量结果少于或等于 2 秒,则突发事件结束。同样,如果 7 天内未收到任何数据,则突发事件结束。
如需结束突发事件,请执行以下操作:
- 在提醒页面的突发事件窗格中,点击查看所有突发事件。
在突发事件页面上,找到要结束的突发事件,然后执行以下操作之一:
- 点击 more_vert 查看更多,然后选择关闭突发事件。
- 打开突发事件的详情页面,然后点击结束突发事件。
如果您看到消息 Unable to close incident with active conditions
,则无法关闭突发事件,因为系统在最近提醒期内已收到数据。
如果您看到消息 Unable to close incident. Please try again in a few minutes.
,则表示由于内部错误,突发事件无法关闭。
数据保留和限制
如需了解限制和突发事件的保留期限,请参阅提醒限制。
后续步骤
- 如需使用 Cloud Monitoring API 或命令行创建和管理提醒政策,请参阅使用 API 管理提醒政策。