突发流量限制
本文档介绍了适用于 Google 安全运营资源的突发流量限制,具体而言是单个客户可以提取到 Google SecOps 中的数据量。突发流量限制会限制所有客户共享的资源用量:
- 单个客户可以使用的提取数据量上限。这样可以确保单个客户突然涌入大量数据不会影响其他客户。
- 监控每个客户的共享资源使用情况。
- 维护可自动强制执行突发限制的配置。
- 提供请求或更改突发限制的方法。
对于过电保护,突发限额是按 5 分钟的时间段衡量的。这不是每日提取量上限。
每位客户的突发流量上限增加
如果您打算快速提高提取速率,我们可以帮助您进行预先规划,确保数据提取保持稳定。如需申请提高突发流量上限,请提前与 Google SecOps 技术支持团队联系。
突发限制概览
突发流量限制会限制客户向 Google SecOps 发送的数据量。这样可以确保公平性,并防止因任何单个客户提取数据激增而对其他客户造成影响。突发流量限制可确保客户数据提取顺利进行,并且可以使用支持服务工单主动进行调整。为了应用突发流量限制,Google SecOps 会根据提取量使用以下分类:
突发限额 | 每秒最大突发流量上限对应的年均数据量 |
---|---|
20 MBps | 600 TB |
88 MBps | 2.8 PB |
350 MBps | 11 PB |
886 MBps | 28 PB |
2.6 GBps | 82 PB |
以下指南适用于突发流量限制:
- 达到突发流量限制后,应将正确配置的数据提取源设置为缓冲额外的数据。它们不应配置为丢弃数据。
- 对于基于拉取的提取(例如 Google Cloud 和 API Feed),系统会自动缓冲提取内容,无需进行额外配置。
- 对于基于推送的数据提取(例如转发器、Webhook 和 API 提取),请将系统配置为在达到突发限额时重新发送数据。对于 BindPlane 和 Cribl,请配置缓冲。
- 在达到连拍上限之前,您可以提高上限。
- 如需确定您是否即将达到突发流量上限,请参阅查看突发流量上限用量。
查看突发限额用量
您可以使用 Google SecOps 或 Cloud Monitoring 查看突发限额用量。
使用 Google SecOps 信息中心查看突发流量限制
如需查看限制用量,请在 Google SecOps 的数据注入和健康状况信息中心使用以下可视化图表:
- “数据提取限制”图表:显示每秒数据提取速率与限制。
- 突发流量遭拒图表:显示因超出突发流量限制而遭拒的日志量。
如需查看突发限额图表和突发拒绝图表可视化结果,请执行以下操作:
- 在 Google SecOps 菜单中,选择信息中心。
在默认信息中心部分,选择数据提取和健康状况。
在随即显示的数据注入和健康状况信息中心内,您可以查看突发流量限制图表和突发流量拒绝图表可视化数据。
使用 Cloud Monitoring 查看突发限制
如需在 Google Cloud 控制台中查看 Google SecOps 突发限制,您需要具有与任何 Google Cloud 限制相同的权限。如需了解详情,请参阅向用户授予对 Cloud Monitoring 的访问权限。
如需了解如何使用图表查看指标,请参阅使用 Metrics Explorer 创建图表。
如需查看突发限额用量,请使用以下 PromQL 查询:
100 * sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))/min(min_over_time(chronicle_googleapis_com:ingestion_quota_limit{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))
如需查看超出突发限额后被拒绝的字节数,请使用以下 PromQL 查询:
sum(rate(chronicle_googleapis_com:ingestion_log_quota_rejected_bytes_count{monitored_resource="chronicle.googleapis.com/Collector"}[15m]))
如需在提取的字节数超过突发流量限制的 70% 时创建提醒,请使用以下 PromQL 查询:
100 * sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))/
min(min_over_time(chronicle_googleapis_com:ingestion_quota_limit{monitored_resource="chronicle.googleapis.com/Collector"}[10m])) > 70
在数据提取源处缓冲数据
下表介绍了根据提取来源,缓冲(而非丢弃)企业数据所需的配置。
提取来源 | 缓冲配置 |
---|---|
Google Cloud 和 Chronicle API Feed | 自动提供缓冲功能 |
转发器、webhook 和 API 提取 | 配置重试 |
BindPlane、Cribl 和转发器 | 配置持久队列 |
问题排查
以下准则可帮助您避免超出突发限额:
- 创建提取提醒,以便在提取的字节量超过突发限额阈值时通知您。如需详细了解如何设置提取提醒,请参阅使用 Cloud Monitoring 接收提取通知。
如需确定提取来源和提取量,请使用
collector_id
和log_type
以及指标chronicle.googleapis.com/ingestion/log/bytes_count
创建监控提醒。如需确定提取来源和提取量,请使用以下 PromQL 查询:sum by (collector_id,log_type)(rate(chronicle_googleapis_com:ingestion_log_bytes_count{monitored_resource="chronicle.googleapis.com/Collector"}[5m]))
如果您预计提取量会增加到正常提取量的 4 倍以上,请提前与 Google SecOps 技术支持团队联系,以提高突发流量上限。
如果您使用 Google SecOps 转发器来提取数据,则可以在超出突发限额时使用磁盘缓冲区来缓冲数据。如需了解详情,请参阅为转发器使用磁盘缓冲区。
下表列出了提取方法以及您在达到突发流量限制时需要执行的对应操作:
提取模式 | 建议采取的措施 |
---|---|
Ingestion API | 请等待一段时间,直到您恢复到以下短时流量上限以下。如果您想尽快恢复提取,请与 Google SecOps 技术支持团队联系。 |
Feed 管理 | 请等待一段时间,直到您恢复到以下短时流量上限以下。如果您想尽快恢复提取,请与 Google SecOps 技术支持团队联系。 |
转发器 | 当您超出突发限额时,请使用磁盘缓冲区缓冲数据。 |
使用 Amazon Data Kinesis、Pub/Sub 或 webhook 的 HTTPS 推送提取。 | 确保将保留期限设置为可能的最大值。 例如,如需为 Pub/Sub 设置保留时间,请参阅配置订阅消息保留 |
为转发器使用磁盘缓冲区
如果您使用 Google SecOps SIEM 转发器,我们建议您在超出突发限额时开始使用磁盘缓冲区来缓冲数据。收集器使用的 RAM 大小上限为 4 GB。您可以使用收集器配置中的 max_file_buffer_bytes 设置来设置此限制。如需缓冲超过 4 GB 的数据,请使用磁盘缓冲区。如需确定磁盘缓冲区大小,请使用以下 MQL 查询确定转发器的提取速率:
sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector", collector_id!~ "
(aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa
|bbbbbbbb-bbbb-bbbb-bbbb-bbbbbbbbbbbb
|cccccccc-cccc-cccc-cccc-cccccccccccc
|dddddddd-dddd-dddd-dddd-dddddddddddd
|aaaa2222-aaaa-2222-aaaa-2222aaaa2222)"}[5m]))
例如,如果从转发器提取数据的速率为 415 Kbps,缓冲区压缩效率为 70%,则缓冲区填充速率的计算公式为 415 Kbps x (100% - 70%) = 124.5 Kbps。以此速率,缓冲区大小为 1 GB(默认的内存中缓冲区值)的缓冲区会在 2 小时 20 分钟内填满。计算方法为 1024 x 1024 / 124.5 = 8422.297 秒 = 2 小时 20 分钟。如果您超出了突发流量上限,则需要 100 GB 的磁盘才能缓冲一天的数据。
常见问题解答
如果超出突发流量限制,会触发什么错误?
如果超出突发限额,您会收到 HTTP 429 错误。
如何解决 HTTP 429 错误?
请在 5 分钟后重试请求。
突发流量限制的刷新频率是怎样的?
突发限额每 5 分钟刷新一次。