什麼是 AIOps?

AIOps (IT 維運人工智慧) 運用機器學習和自然語言處理 (NLP) 等技術,自動化及改善 IT 系統的管理方式。AIOps 平台會查看 IT 系統中的大量資料、找出模式,並協助 IT 團隊瞭解現況和處置方式。此平台會從記錄檔、效能測量結果和事件等許多地方收集資料,全面掌握 IT 環境的狀況。AIOps 可連結並瞭解這些資料,協助發現異常活動、找出問題原因,甚至預測可能發生的問題。

比較 AIOps 與 DevOps:兩者如何搭配運作?

AIOps 和 DevOps 的起源不同,但兩者並非競爭的概念,而是強大的合作夥伴。兩者關係說明如下:

  • DevOps 是一種文化和程序,透過整合開發和營運,加快軟體推送生命週期。著重於協作、自動化和 CI/CD 管道。
  • AIOps 是智慧引擎,可大幅提升 DevOps 工具鏈的效能。提供進階數據分析和自動化功能,協助管理現代 DevOps 做法帶來的複雜性。

簡言之,DevOps 負責建構快速的管道,AIOps 則透過自動偵測、診斷及解決問題,確保管道以可靠有效率的方式運作。

AIOps 如何運作?

AIOps 平台通常會以三個程序運作:觀察、參與和行動。

觀察

AIOps 平台會擷取整個 IT 環境的大量資料串流 (包括指標、記錄檔、追蹤記錄和事件),並集中管理,即時呈現完整的系統健康狀態。

互動交流

平台會運用機器學習技術,分析這些資料並建立關聯,從雜訊中找出重要信號。這項服務會自動偵測異常狀況、將相關警告歸類,並找出可能的根本原因,透過統一的資訊主頁和目標警告,向 IT 團隊提供可做為行動依據的洞察資料。

行動

平台會根據分析結果,觸發自動回覆來解決問題。範圍涵蓋通知相關團隊,並執行自動修復工作流程,例如:重新啟動服務、資源調度或復原變更,通常在人員介入前就進行。

AIOps 的重要階段有哪些?

提升 AIOps 成熟度的歷程通常會經歷以下幾個階段:

  1. 被動:這是第一階段,處於此階段的組織獨立運作,只為了應對而收集事件資料。系統與業務之間的互動很少。
  2. 整合:隨著在採用 AIOps 方面的進展,企業可將資料來源整合至統一的結構,並改善 IT 服務管理 (ITSM),打破資料孤島並促進協作。
  3. 分析:第三階段是實作全方位的數據分析策略,優先考量讓所有利害關係人都能存取資料。只要強化 ITSM 程序,並制定評估標準和關鍵指標,組織就能獲得更出色的成效。
  4. 指示性:在此階段,組織已將自動化列為優先要務,並經常使用機器學習技術。自動化是 ITSM 程序的重要一環,可與人工操作相輔相成。此外,您還能使用比較分析功能,評估改善成效和業務影響。
  5. 自動化:在成熟度最高的階段,組織可完全自動化,並使用預測機器學習模型,無需人為介入。利害關係人可順暢地共用資料,分析結果也完全公開透明。有助於推動以業務價值為導向的主動式決策。

AIOps 有哪些不同類型?

瞭解不同類型的 AIOps 解決方案,是選擇合適平台並有效實作的關鍵。AIOps 解決方案可分為兩大類:

  • 以領域為主的 AIOps:這類專門的 AI 輔助工具可監控及管理特定 IT 維運領域的成效,例如網路、應用程式和雲端運算環境。舉例來說,以領域為主的 AIOps 平台可能會專注於監控網路效能,並使用 AI 偵測及診斷網路異常狀況。
  • 適用於各種領域的 AIOps:這類解決方案的設計宗旨是,在更廣泛的網路和組織範圍內,擴大預測性數據分析和 AI 自動化作業的規模。這類解決方案會收集及分析 IT 環境中各種來源的事件資料,提供全方位的洞察資訊和關聯資料。舉例來說,適用於各種領域的 AIOps 平台可能會擷取各種監控工具、資安系統和 IT 服務管理 (ITSM) 平台的資料,提供 IT 維運的全面檢視,並找出不同領域事件之間的關聯。

AIOps 的優點

導入 AIOps 可為組織帶來顯著的策略和營運優勢:

提升業務靈活性和應變能力

有了 AIOps,IT 團隊就能更彈性地快速因應不斷變化的業務需求。加快事件解決速度、最佳化資源配置,並主動提供洞察資訊,讓您更快部署新服務、迅速回應市場商機,並提升擴充性。

策略性資源最佳化與成本效益

AIOps 可最佳化資源使用率、避免過度佈建或佈建不足,並減少代價高昂的停機時間,讓 IT 支出更明智。資料導向的深入分析結果可做為基礎,有助於制定基礎架構投資策略性決策,進而更符合業務目標,大幅節省成本。

提升客戶和使用者體驗,以及品牌聲譽

AIOps 驅動的 IT 服務一致、可靠且效能優異,可確保使用者享有正向、順暢的體驗,將中斷情況降至最低,並盡可能提高服務可用性。在數位化程度日益提高的世界中,這直接轉化為提升的顧客滿意度,以及強化的品牌聲譽和顧客忠誠度。

提升 IT 團隊的工作效率和創新能力

AIOps 可自動執行例行工作、減少警告疲勞,並提供可做為行動依據的洞察資料,大幅提升 IT 維運效率,讓 IT 人員可以省下寶貴時間。IT 團隊就能將重心從被動應對轉移至策略計畫、創新和具附加價值的活動,進而推動業務成長。

強化業務韌性和風險控管

AIOps 會主動找出並解決潛在的 IT 問題,避免影響重要業務營運,將停機時間和服務中斷情況降至最低。此外,AIOps 還能強化安全防護機制和法規遵循成效,提升整體業務韌性,降低營運和安全風險。

AIOps 的用途

AIOps 可在各種 IT 維運情境中,提供多種實用應用:

主動監控效能和穩定性

為確保服務快速可靠,AIOps 會主動監控 IT 基礎架構的效能。這項服務會分析歷來和即時資料,瞭解正常情況,進而偵測出細微的偏差,這些偏差表示未來可能發生的問題,例如記憶體流失或回應時間變慢。讓團隊在問題導致服務中斷前,及時修正。

自動化事件修復工作流程

AIOps 可與 IT 自動化工具和自動化調度管理平台整合,促進自動執行事件應變工作流程。偵測到事件後,AIOps 可自動觸發預先定義的修復動作,例如重新啟動服務、調度資源或執行診斷指令碼,無須手動介入。舉例來說,如果 AIOps 偵測到網頁應用程式錯誤,可以自動啟動工作流程,重新啟動應用程式伺服器,並復原最近有問題的程式碼部署作業。

透過多維度資料關聯,執行智慧型根本原因分析

運用機器學習技術分析各種 IT 來源的資料 (包括記錄檔、指標、網路流量和設定資料),並找出關聯性,協助執行智慧型根本原因分析。此功能可讓 AIOps 找出人類分析可能遺漏的複雜關係和相依關係,精確識別 IT 問題的根本原因。舉例來說,如果偵測到資料庫效能問題,AIOps 可以將資料庫記錄檔與伺服器指標和網路延遲資料建立關聯,找出根本原因,判斷是查詢速度緩慢、伺服器資源爭用,還是網路效能瓶頸。

強化資安營運 (SecOps)

AIOps 採用相同的異常偵測原則來防範威脅,進而強化安全性。這項服務會分析網路流量、使用者行為和系統記錄,建立正常活動的基準。接著,系統會標出可疑的偏差,指出潛在的安全性漏洞,例如異常的資料存取模式或從非預期地點的登入嘗試,並向資安團隊發出警告。

情境感知和排定動態警告優先順序

整合智慧演算法,來分析警告並提供背景資訊,根據嚴重性、業務影響和相依性,動態排定警示優先順序。這項功能不僅能根據簡單的門檻發出警告,還能減少警告雜訊,確保 IT 團隊專注處理最重要且可據以行動的通知。

透過趨勢分析和資源建議,主動最佳化效能

執行趨勢分析和容量規劃演算法,主動找出潛在的效能瓶頸,並最佳化資源配置。AIOps 會分析歷來成效資料並預測未來資源需求,提供資源調整建議,例如擴充運算資源或重新平衡工作負載,以維持最佳效能並防止服務品質下降。舉例來說,AIOps 可以分析應用程式效能趨勢,預測網頁應用程式何時可能達到負載高峰,並建議主動擴充網路伺服器執行個體,確保使用者在尖峰時段也能享有穩定的體驗。

如何導入 AIOps

導入 AIOps 需要策略性做法,並考量資料品質、整合和技能發展等各種因素。以下概略說明如何在貴組織導入 AIOps:

  • 根據業務目標調整 AIOps:為 AIOps 導入作業設定明確的目標,並與貴組織的整體業務策略保持一致。舉例來說,如果貴組織的目標是提升顧客滿意度,則可著重運用 AIOps 縮短停機時間,並提高服務可靠性。
  • 將事件資料連結至 AIOps 工具:整合各種來源和監控工具的資料,提供 IT 環境的整合式檢視畫面。這可能需要與現有的監控工具、記錄管理系統和 ITSM 平台整合。
  • 減少干擾:實施策略來篩除無關的警告和通知,專注於最關鍵的問題。這可能需要使用 AI 找出警告的關聯性、識別模式,並減少誤報。
  • 充實及正規化事件資料和事件:將事件資料標準化並充實內容,加快應變速度,促進團隊合作。例如在警告中加入受影響的系統、應用程式和使用者等背景資訊。
  • 建構自動化修復工作流程首先找出常見的重複事件。建立並測試自動化應對手冊,讓 AIOps 觸發這些手冊,立即解決問題,使工程師能專注處理更複雜的問題。
  • 確保高品質資料:AIOps 的成效取決於輸入系統的資料品質。確保資料準確、完整且一致,避免產生不正確的洞察或預測。
  • 運用開放式 API 和 SDK:開放式 API 和 SDK 是將 AIOps 與現有系統整合,以及自訂整合功能的關鍵。選擇提供開放式 API 和 SDK 的 AIOps 平台,確保與 IT 環境完美整合。

運用 Google Cloud 建構 AIOps 解決方案

Google Cloud 提供功能強大的整合式服務套件,可做為現代 AIOps 策略的建構基礎。不是單一產品,而是提供彈性的平台來實作「觀察、參與、行動」工作流程。

  • 「觀察」層:
  • Google Cloud 觀測套件 (Cloud Logging、Cloud Monitoring、Cloud Trace):這是資料收集的基礎。這項服務會自動擷取整個 Google Cloud、混合雲和多雲端環境的指標、記錄檔和追蹤記錄,提供分析所需的原始資料。
  • 「參與」層 (分析與診斷):
  • BigQuery:這個無伺服器資料倉儲是中央分析引擎。這項服務可儲存及處理 Cloud Observability 傳來的 PB 級作業資料。您可以執行複雜的查詢,分析歷來趨勢,並找出不同資料集中的模式。
  • Vertex AI:這裡就是實現 AIOps 中的「AI」的地方。您可以運用 Vertex AI,直接在 BigQuery 儲存的資料上建構、訓練及部署自訂機器學習模型,以執行進階異常偵測、預測警告和根本原因分析。
  • 「行動」(自動化與修復) 層:
  • Cloud FunctionsCloud Run:這些無伺服器運算服務非常適合執行自動化修復動作。Vertex AI 的洞察資訊或 Cloud Monitoring 的警告可觸發 Cloud 函式,自動重新啟動 Pod、擴充服務,或將詳細通知發布至協作工具。
  • Workflows:這項服務可讓您自動調度管理多項 Google Cloud 服務的複雜動作序列。您可以設計複雜的端對端修復應對手冊,由 AIOps 事件自動觸發,確保事件應變作業的一致性和可靠性。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。