記錄分析是系統化程序,可收集、集中、搜尋及視覺化機器產生的資料 (記錄),這些資料來自應用程式、伺服器、網路裝置和雲端基礎架構。除了儲存資料,還提供工具來詢問複雜問題,清楚瞭解系統效能。
從本質上來說,記錄就像數位系統中所有事件的即時日記。記錄檔分析功能可將這些雜亂無章的非結構化文字,轉換為可查詢的結構化資料。這類情報對於排解應用程式錯誤、監控網路流量,以及在影響業務前找出資安趨勢至關重要。
雖然記錄檔管理和記錄檔分析經常交替使用,但兩者代表處理遙測資料的不同成熟階段。
記錄管理著重於「基礎工程」,也就是收集、轉送、儲存及封存記錄。主要目標通常是記錄資料,並確保符合資料保留政策。
記錄檔分析則是在受管理資料的基礎上,提供更深入的情報。這項工具運用強大的搜尋引擎、SQL 查詢和資訊主頁,主動偵測異常狀況。管理團隊確保資料存在,而分析則提供系統行為背後的「原因」,讓團隊從被動儲存轉為主動排除問題。
記錄事件的生命週期包含一個管道,將資料從產生轉化為可用的洞察。此流程可確保原始機器輸出內容轉換成工程師能用來解決問題的資料。
軟體代理程式或 API 會從微服務、防火牆和資料庫等各種來源收集記錄。這些資料會串流至單一集中式存放區,消除資料孤島,確保工程師在要求通過不同系統層時,能掌握完整脈絡。
非結構化文字字串會剖析為 JSON 等結構化格式。系統會擷取 IP 位址、錯誤代碼和使用者 ID 等重要欄位,並建立索引。有了索引,使用者就能在幾秒內搜尋數十億筆記錄項目,不必花上好幾分鐘。
工程師會使用 SQL 等查詢語言找出模式,或建構視覺化資訊主頁。這個階段會將原始記錄檔轉換成圖表,方便您找出活動量激增的情況,或將記錄與系統指標和追蹤資料建立關聯。
以下情境說明團隊如何運用記錄檔分析,解決實際營運和安全問題。
情境 | 說明 | SQL 查詢範例 |
排解錯誤 | 計算各來源的錯誤數量,找出最常發生故障的應用程式部分。 | SELECT resource.labels.cluster_name, count(*) as error_count FROM my_logs WHERE severity = 'ERROR' GROUP BY 1 |
監控流量 | 使用虛擬私有雲流量記錄,查看網路流量。 | SELECT json_payload.src_ip, sum(cast(json_payload.bytes_count as INT64)) as total_bytes FROM vpc_logs GROUP BY 1 |
資安稽核 | 查看特定動作的稽核記錄,找出存取系統的人員。 | SELECT proto_payload.authentication_info.principal_email, count(*) FROM audit_logs GROUP BY 1 |
情境
說明
SQL 查詢範例
排解錯誤
計算各來源的錯誤數量,找出最常發生故障的應用程式部分。
SELECT resource.labels.cluster_name, count(*) as error_count FROM my_logs WHERE severity = 'ERROR' GROUP BY 1
監控流量
使用虛擬私有雲流量記錄,查看網路流量。
SELECT json_payload.src_ip, sum(cast(json_payload.bytes_count as INT64)) as total_bytes FROM vpc_logs GROUP BY 1
資安稽核
查看特定動作的稽核記錄,找出存取系統的人員。
SELECT proto_payload.authentication_info.principal_email, count(*) FROM audit_logs GROUP BY 1
追蹤單一要求在數十個微服務中的流動情形非常複雜。開發人員可結合記錄檔分析和追蹤 ID,將失敗要求的歷程串連起來,找出導致失敗的確切服務。
資安分析師會使用防火牆、識別資訊提供者和虛擬私有雲流量記錄檔,追蹤未經授權的攻擊者在網路中的橫向移動,找出遭盜用的帳戶或外洩的資源。
受監管產業會使用不可變更的記錄儲存空間和分析功能,向稽核人員證明哪些人存取了特定記錄,以及存取時間,確保符合嚴格的資料處理規定。
從基本記錄轉為進階分析,可大幅提升工程團隊的作業效率,並獲得更高的投資報酬率。
加速疑難排解與根本原因分析
網站穩定性工程師 (SRE) 可透過集中式搜尋功能大幅縮短解決問題的平均時間 (MTTR)。團隊不必透過 SSH 連線至個別伺服器,就能快速找出導致服務中斷的確切錯誤記錄,大幅縮短服務復原時間。
主動保障安全與法規遵循
記錄檔分析是安全資訊與事件管理 (SIEM) 的基礎。資安團隊可以大規模稽核使用者動作,找出威脅、偵測未經授權的存取行為,並遵循 HIPAA 或 PCI-DSS 等架構。
提升應用程式效能
開發團隊可透過記錄檔趨勢找出執行速度緩慢的資料庫查詢,以及隱藏的瓶頸。工程師可以分析長期趨勢,在使用者回報效能問題前,修正效率不彰的程式碼。
成功的策略不僅僅是收集記錄檔,還能進行結構化分析,提供業務價值。
1. 定義目標和範圍:找出需要記錄的系統,並確定對營運和安全目標至關重要的特定事件
2. 標準化記錄格式:在各應用程式中導入結構化記錄 (例如 JSON),確保資料易於剖析及查詢
3. 設定保留和轉送政策:決定哪些記錄要保留在「熱」儲存空間中,以供即時分析,哪些要封存至「冷」儲存空間,以符合法規要求
4. 自動化警告和資訊主頁:建立主動警告規則,在問題影響使用者前偵測異常狀況並通知團隊