本页面介绍为何某些提醒政策的行为方式与预期不同,并针对这些情况提供了可能的补救方法。
如需了解可通过选择重新测试时间范围等方式影响提醒政策的变量,请参阅基于指标的提醒政策的行为。
磁盘利用率政策产生意外突发事件
您创建了一个提醒政策,用于监控系统中磁盘的“已用”容量。此政策会监控指标 agent.googleapis.com/disk/percent_used
。您预期仅在任何物理磁盘的利用率超过您在条件中设置的阈值时收到通知。但是,此政策会在每个物理磁盘的磁盘利用率低于阈值时创建突发事件。
这些政策的意外突发事件的已知原因是此类条件不限于监控物理磁盘。这些政策会改为监控所有磁盘,包括环回设备等虚拟磁盘。如果构建了一个虚拟磁盘,使其利用率达到 100%,则会导致创建政策的突发事件。
例如,请考虑 Linux df
命令的下列输出,其中显示系统所装载的文件系统上的磁盘空间:
$ df /dev/root 9983232 2337708 7629140 24% / devtmpfs 2524080 0 2524080 0% /dev tmpfs 2528080 0 2528080 0% /dev/shm ... /dev/sda15 106858 3934 102924 4% /boot/efi /dev/loop0 56704 56704 0 100% /snap/core18/1885 /dev/loop1 129536 129536 0 100% /snap/google-cloud-sdk/150 ...
对于此系统,应将磁盘利用率提醒政策配置为过滤掉环回设备 /dev/loop0
和 /dev/loop1
的时序。例如,您可以添加过滤条件 device !=~ ^/dev/loop.*
,以排除 device
标签与正则表达式 ^/dev/loop.*
不匹配的所有时序。
异常突发事件的常见原因
您创建了一个提醒政策,该政策似乎过早创建或错误地创建了突发事件。
由于多种原因,您可能会收到看似不正确的事件通知:
如果数据中存在缺口,尤其对于存在指标缺失或“小于”阈值条件的提醒政策,则可能创建看似异常的突发事件。有时突发事件不会显示数据缺口,有时系统会自动修正数据缺口:
例如,在图表中,数据缺口可能不会显示,因为缺失数据的值会值。即使缺少几分钟的数据,图表也会连接缺失的点,以获得视觉上的连续性。提醒政策中的此类缺口可能足以让提醒政策创建突发事件。
如果基于日志的指标中的点出现延迟,系统可能会对其进行回填(针对过去最长 10 分钟的数据点进行回填)。回填行为可以有效地纠正缺口;当数据最终到达时,会填补缺口。因此,基于日志的指标中一个再也看不见的缺口可能已经导致了提醒政策创建突发事件。
指标缺失和“小于”阈值条件会实时评估,查询延迟时间很短。在评估条件到相应突发事件在 Monitoring 中可见这段时间内,条件的状态可能会发生变化。
配置为针对单个测量创建突发事件的条件可能会导致看似过早或不正确的突发事件。为了避免这种情况,请将条件的重新测试窗口设置为大于指标的采样率的两倍,确保在创建突发事件之前需要进行多次测量。
例如,如果指标每 60 秒采样一次,请将重新测试时间窗口设置为至少 3 分钟。如果您将重新测试时间范围设置为最近的值(或相当于 0 秒),则单次测量结果可能会导致创建突发事件。
修改提醒政策的条件时,更改可能需要几分钟才能在提醒政策基础架构中传播。在此期间,您可能会收到满足原来的提醒政策条件的突发事件通知。
时间序列数据到达时,数据可能需要一分钟才能传播到整个提醒基础架构。在此过程中,提醒政策可能会评估某个条件是否已满足,即使时序数据尚未传播到时序图表也是如此。因此,即使图表未指明已满足条件,您也可能会收到通知。为减少出现这种情况的可能性,请使用至少五分钟的校准时间段。
当数据停止传入时,突发事件未结束
您按照部分指标数据中的指南操作,并配置提醒政策,以便在数据停止传入时关闭突发事件。在某些情况下,数据会停止传入,但未结突发事件不会自动关闭。
如果受提醒政策监控的基础资源包含 metadata.system_labels.state
标签,并且该政策未使用监控查询语言编写,则监控可以确定资源的状态。如果已知资源处于停用状态,则当数据停止传入时,Monitoring 不会自动关闭突发事件。不过,您可以手动关闭这些突发事件。
由于权限错误,导致无法查看突发事件详情
您可以前往 Google Cloud 控制台中的“突发事件”页面,然后选择要查看的突发事件。您应能打开详情页面。但是,详情页面无法打开,并显示“权限遭拒”的消息。
如需查看除指标数据以外的所有突发事件详细信息,请确保您具有以下 Identity and Access Management (IAM) 角色:Monitoring Cloud 应用控制台突发事件查看者 (roles/monitoring.cloudConsoleIncidentViewer
) 和 Stackdriver 账号查看者 (roles/stackdriver.accounts.viewer
)。
如需查看所有突发事件详情(包括指标数据),并能够确认或关闭突发事件,请确保您具有 Monitoring Viewer (roles/monitoring.viewer
) 和 Monitoring Cloud 控制台突发事件编辑器 (roles/monitoring.cloudConsoleIncidentEditor
) IAM 角色。
自定义角色无法授予查看突发事件详情所需的权限。
在满足条件时未创建突发事件
您创建了一个包含一个条件的提醒政策。提醒政策的图表显示,所监控的数据违反了条件,但您未收到通知,系统也没有创建突发事件。
如果在满足提醒政策条件后,以下任一条件为 true,则 Monitoring 不会打开突发事件。
- 提醒政策已延后。
- 提醒政策已停用。
- 提醒政策已达到其同时可打开的突发事件数量上限。
提醒政策监控的资源的状态已知为已停用。当资源包含
metadata.system_labels.state
标签且提醒政策未使用 Monitoring Query Language 编写时,Monitoring 可以确定资源的状态。
突发事件详情列出了错误的项目
您会收到通知,并且情况摘要会列出创建相应问题的 Google Cloud 项目,即范围限定项目。不过,您希望该问题列出存储导致 Monitoring 创建该问题的时序的 Google Cloud 项目的名称。
提醒政策条件中指定的汇总选项决定了通知中引用的 Google Cloud 项目:
当汇总选项移除存储项目 ID 的标签时,服务中会列出范围项目。例如,如果您仅按可用区对数据进行分组,则在分组后,系统会移除存储项目 ID 的标签。
当汇总选项保留存储项目 ID 的标签时,突发事件通知会包含存储导致突发事件发生的时序的 Google Cloud 项目的名称。如需保留项目 ID 标签,请在分组字段中添加标签
project_id
,或不对时序进行分组。
无法手动结束突发事件
您收到系统突发事件通知。转到突发事件详情页面,然后点击结束突发事件。突发事件应能结束;但是您收到以下错误消息:
Unable to close incident with active conditions.
只有在最近的提醒期内没有收到任何观察结果时,您才能结束突发事件。提醒期(通常默认为 5 分钟)作为提醒政策条件的一部分进行定义,并且可以对其进行配置。上一条错误消息表明在提醒期内收到数据。
如果突发事件因内部错误而无法关闭,则会发生以下错误:
Unable to close incident. Please try again in a few minutes.
当您看到上一条错误消息时,可以重试关闭操作,或者让 Monitoring 自动关闭突发事件。
如需了解详情,请参阅管理突发事件。
多条件政策创建多个通知
您创建了一个包含多个条件的提醒政策,并使用逻辑 AND
连接这些条件。您希望在满足所有条件时收到一条通知并创建一个突发事件。但您会收到多个通知,还会发现存在多个突发事件。
监控功能会针对导致条件得到满足的每个时序发送通知并创建突发事件。因此,如果您的提醒政策包含多个条件,那么对于导致连接条件得到满足的每个时序,您都可能会收到一条通知和一个突发事件。
例如,假设您有一项包含两个条件的提醒政策,每个条件都监控 3 个时序。只有在同时满足这两个条件时,该政策才会发送通知。当您的政策的条件满足时,您可能会收到 2 到 6 条通知和突发事件(分别对应于每个条件满足一个时序和每个条件满足所有时序)。
您无法将 Monitoring 配置为创建单个突发事件并发送单个通知。
如需了解详情,请参阅每次事件的通知数。
指标标签的变量为 null
您创建提醒政策,并在文档部分添加指标标签的变量。您希望通知显示变量的值;但值设为 null
。
如需解决此问题,请尝试以下操作:
确保提醒政策的汇总设置保留您要显示的标签。
例如,假设您创建了一项提醒政策,用于监控虚拟机实例写入的磁盘字节数。您希望文档列出导致通知的设备,因此您将以下内容添加到文档字段中:
device: ${metric.label.device}
。您还必须确保您的汇总设置保留
device
标签的值。您可以通过将汇总函数设置为none
或确保分组选择包含device
来保留此标签。验证变量的语法和适用性。如需了解语法信息,请参阅使用用户定义的文档为通知添加注释。
例如,变量
log.extracted_label.KEY
仅适用于基于日志的提醒政策。当提醒政策监控指标(即使是基于日志的指标)时,此变量始终呈现为null
。
更改指标定义后没有新数据
您更改了用户定义的指标的定义(例如,修改了基于日志的指标中使用的过滤条件),但提醒政策未反映您对指标定义所做的更改。
如需解决此问题,请修改提醒政策的显示名称,以强制更新提醒政策。
由于缺少指标,API 中的提醒政策创建失败
您最近创建了一个指标,然后在尝试在 Cloud Monitoring API 中创建提醒政策时引用了该指标。不过,API 命令会失败并显示以下错误:
Error 404: Cannot find metric(s) that match type = "METRIC_NAME". If a metric was created recently, it could take up to 10 minutes to become available. Please try again soon.
如需解决此问题,请至少等待 10 分钟,然后重新提交 API 请求。