爆量限制
本文說明 Google Security Operations 資源的爆量限制,特別是單一客戶可擷取至 Google SecOps 的資料量。突發流量限制會限制所有客戶共用的資源用量:
- 單一客戶可使用的資料擷取量上限。確保單一客戶突然湧入的資料不會影響其他客戶。
- 監控每位顧客的共用資源用量。
- 維護自動強制執行爆量限制的設定。
- 提供要求或變更爆量限制的方法。
為提供突發流量保護機制,系統會以 5 分鐘為週期測量爆量限制。這並非每日擷取上限。
每位顧客的爆量上限增加
如果您打算快速提高擷取率,我們可以協助您預先規劃,確保資料擷取作業維持穩定。如要申請提高突發上限,請事先與 Google SecOps 技術支援團隊聯絡。
突發流量限制總覽
爆量限制會限制單一客戶可傳送至 Google SecOps 的資料量。這可確保公平性,並避免單一客戶的擷取量暴增,進而影響其他客戶。突發流量限制可確保顧客資料擷取作業順利進行,並可透過支援單主動調整。為套用爆量限制,Google SecOps 會根據擷取量使用下列分類:
爆量限制 | 每秒爆發上限的年度等效資料 |
---|---|
20 MBps | 600 TB |
88 MBps | 2.8 PB |
350 MBps | 11 PB |
886 MBps | 28 PB |
2.6 GBps | 82 PB |
以下是連線數上限的相關規範:
達到爆量上限時,設定正確的擷取來源應會緩衝額外資料。不應設定為捨棄資料。
- 如果是以提取為基礎的擷取方式 (例如 Google Cloud 和 API 饋給),系統會自動緩衝處理擷取作業,不需要額外設定。
- 如果是以推送為基礎的擷取方法 (例如轉送器、Webhook 和 API 擷取),請設定系統在達到爆量上限時自動重新傳送資料。如果是 Bindplane 和 Cribl 等系統,請設定緩衝區,有效處理資料溢位。
在達到突發上限前,您可以提高上限。
如要判斷是否即將達到爆量上限,請參閱「查看爆量上限用量」。
查看爆量限制用量
您可以使用 Google SecOps 或 Cloud Monitoring 查看爆量限制用量。
使用 Google SecOps 資訊主頁查看爆量限制
如要查看用量限制,請在 Google SecOps 資料擷取與健康狀態資訊主頁中,使用下列視覺化圖表:
- 爆量限制圖表 - 擷取率:顯示擷取率。
- 爆量限制圖表 - 配額限制:顯示配額限制。
- 爆量拒絕圖表:顯示因超過爆量限制而遭拒的記錄數量。
如要查看視覺化效果,請按照下列步驟操作:
- 在 Google SecOps 選單中,選取「資訊主頁」。
在「預設資訊主頁」專區中,選取「資料擷取和健康狀態」。
在「資料擷取和健康狀態」資訊主頁中,您可以查看視覺化資料。
使用 Cloud Monitoring 查看爆量限制
如要在 Google Cloud 控制台中查看 Google SecOps 爆量限制,您需要與任何 Google Cloud 限制相同的權限。詳情請參閱「授予 Cloud Monitoring 存取權」。
如要瞭解如何透過圖表查看指標,請參閱「使用 Metrics Explorer 建立圖表」一文。
如要查看爆量限制用量,請使用下列 PromQL 查詢:
100 * sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))/min(min_over_time(chronicle_googleapis_com:ingestion_quota_limit{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))
如要查看因超出突發流量上限而遭拒的位元組數,請使用下列 PromQL 查詢:
sum(rate(chronicle_googleapis_com:ingestion_log_quota_rejected_bytes_count{monitored_resource="chronicle.googleapis.com/Collector"}[15m]))
如要在擷取的位元組數超過爆量限制的 70% 時建立快訊,請使用下列 PromQL 查詢:
100 * sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))/
min(min_over_time(chronicle_googleapis_com:ingestion_quota_limit{monitored_resource="chronicle.googleapis.com/Collector"}[10m])) > 70
在擷取來源緩衝處理資料
下表說明根據擷取來源,從企業緩衝處理 (而非捨棄) 資料所需的設定。
擷取來源 | 緩衝設定 |
---|---|
Google Cloud 和 Chronicle API 動態饋給 | 系統會自動提供緩衝區 |
轉送站、Webhook 和 API 擷取 | 設定重試作業 |
Bindplane、Cribl 和 Forwarders | 設定永久佇列 |
疑難排解
避免超出限制的策略
請遵守下列規範,避免超出爆量上限:
- 建立擷取快訊,在擷取的位元組數超過爆量限制門檻時收到通知。如要進一步瞭解如何設定擷取警報,請參閱「使用 Cloud Monitoring 接收擷取通知」。
如要找出擷取來源和量,請使用
collector_id
、log_type
和指標chronicle.googleapis.com/ingestion/log/bytes_count
建立監控快訊。如要找出擷取來源和擷取量,請使用下列 PromQL 查詢:sum by (collector_id,log_type)(rate(chronicle_googleapis_com:ingestion_log_bytes_count{monitored_resource="chronicle.googleapis.com/Collector"}[5m]))
如果預期擷取量會超過正常擷取量的四倍,請事先與 Google SecOps 技術支援團隊聯絡,提高爆量上限。
如果您使用 Google SecOps 轉送器擷取資料,可以在超出突發流量上限時,使用磁碟緩衝區緩衝資料。詳情請參閱「使用轉送器磁碟緩衝區」。
處理爆量限制事件
如果達到爆量上限,請針對擷取方法採取下列動作:
擷取模式 | 建議採取的行動 |
---|---|
Ingestion API | 請等到用量低於爆量上限,如要盡快恢復擷取作業,請與 Google SecOps 技術支援團隊聯絡。 |
動態饋給管理 | 請等到用量低於爆量上限,如要盡快恢復擷取作業,請與 Google SecOps 技術支援團隊聯絡。 |
轉送站 | 超出爆量上限時,請使用磁碟緩衝區緩衝資料。 |
使用 Amazon Data Kinesis、Pub/Sub 或 Webhook 的 HTTPS 推送擷取。 | 確認保留時間已設為最大值。 舉例來說,如要設定 Pub/Sub 的保留時間,請參閱「設定訂閱項目的訊息保留時間」 |
使用轉送器的磁碟緩衝區
如果您使用 Google SecOps SIEM 轉送器,建議您開始使用磁碟緩衝區,在超出突發流量上限時緩衝資料。收集器使用的 RAM 大小上限為 4 GB。 您可以在收集器設定中使用 max_file_buffer_bytes 設定,設定這項限制。如要緩衝處理超過 4 GB 的資料,請使用磁碟緩衝區。如要決定磁碟緩衝區大小,請使用下列 MQL 查詢,找出轉送程式的擷取速率:
sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count
{monitored_resource="chronicle.googleapis.com/Collector", collector_id!~ "
(aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa
|bbbbbbbb-bbbb-bbbb-bbbb-bbbbbbbbbbbb
|cccccccc-cccc-cccc-cccc-cccccccccccc
|dddddddd-dddd-dddd-dddd-dddddddddddd
|aaaa2222-aaaa-2222-aaaa-2222aaaa2222)"}[5m]))
舉例來說,如果轉送器的擷取速率為 415 Kbps,緩衝區壓縮效率為 70%,則緩衝區填滿速率的計算方式為 415 Kbps x (100% - 70%) = 124.5 Kbps。以這個速率計算,1 GB 的緩衝區大小 (預設的記憶體內緩衝區值) 會在 2 小時 20 分鐘內填滿。計算方式為 1024 x 1024 / 124.5 = 8422.297 秒 = 2 小時 20 分鐘。如果超過爆量上限,您需要 100 GB 的磁碟來緩衝一天的資料。
常見問題
超出爆量限制時,系統會觸發什麼錯誤?
如果超出突發流量上限,系統會傳回 HTTP 429 錯誤。
如何解決 HTTP 429 錯誤?
請在五分鐘後重試要求。
爆量限制多久會重新整理一次?
爆發上限每五分鐘會重設一次。