這份Google Cloud Well-Architected Framework 的金融服務業觀點文件,概述了在 Google Cloud中建構、部署及運作穩健金融服務業 (FSI) 工作負載的原則和建議。這些建議可協助您設定觀測能力、自動化和擴充性等基本要素。本文中的建議符合 Well-Architected Framework 的卓越營運支柱。
由於金融服務業工作負載受到嚴格監管,且性質敏感,因此卓越營運至關重要。 Google Cloud 卓越營運可確保雲端解決方案能因應不斷變化的需求,並滿足您對價值、效能、安全性和可靠性的要求。如果這些領域發生問題,可能會導致重大財務損失、監管處罰和聲譽受損。
卓越營運可為金融服務機構工作負載帶來以下優勢:
- 維護信任和聲譽:金融機構非常依賴顧客的信任。營運中斷或發生安全漏洞可能會嚴重破壞這份信任,導致客戶流失。卓越營運有助於盡量降低這些風險。
符合嚴格的法規遵循要求:金融服務產業須遵守許多複雜的法規,例如:
完善的作業程序、監控和事件管理機制,是證明符合法規要求及避免處罰的必要條件。
確保業務持續運作和復原能力:金融市場和服務通常會持續運作。因此,高可用性和有效的災難復原至關重要。優質營運原則可做為設計和實作彈性系統的指引。如需這方面的更多指引,請參閱可靠性支柱。
保護機密資料:金融機構會處理大量高度機密的客戶和財務資料。為防範資料外洩及維護隱私權,必須採取嚴格的作業控管措施、進行安全監控,並快速應變事件。如需這方面的更多指引,請參閱安全性支柱。
提升重要應用程式的效能:許多金融應用程式 (例如交易平台和即時分析) 都需要高效能和低延遲。如要符合這些效能需求,您需要經過高度最佳化的運算、網路和儲存空間設計。如需這方面的更多指引,請參閱成效最佳化支柱。
有效管理成本:除了安全性和可靠性,金融機構也重視成本效益。卓越營運包括最佳化資源使用率和管理雲端支出的做法。如需這方面的更多指引,請參閱成本最佳化支柱。
本文中的優質營運建議會對應至下列核心原則:
定義服務水準協議,以及相應的服務等級目標和服務水準指標
在許多 FSI 機構中,應用程式的可用性通常是根據復原時間目標 (RTO) 和復原點目標 (RPO) 指標分類。如果是為外部客戶提供服務的業務關鍵應用程式,可能也會定義服務水準協議 (SLA)。
服務等級協議需要指標架構,從使用者滿意度的角度呈現系統行為。網站穩定性工程 (SRE) 做法可協助您達到所需的系統穩定性。建立指標架構時,需要定義及監控重要的數值指標,從使用者的角度瞭解系統健康狀態。舉例來說,延遲時間和錯誤率等指標可量化服務的效能。這些指標稱為服務水準指標 (SLI)。開發有效的 SLI 至關重要,因為這是客觀評估可靠性所需的原始資料。
如要定義有意義的服務水準協議、SLI 和 SLO,請參考下列建議:
- 為每項重要服務開發及定義服務水準指標。設定目標值,定義可接受的成效等級。
- 根據服務水準指標 (SLI) 開發及定義服務等級目標 (SLO)。舉例來說,服務等級目標可能會規定 99.9% 的要求延遲時間必須少於 200 毫秒。
- 如果服務未達到 SLO,請找出必須採取的內部補救措施。舉例來說,為提升平台韌性,您可能需要將開發資源集中用於修正問題。
- 驗證各項服務的服務水準協議需求,並將服務水準協議視為與服務使用者的正式合約。
服務等級範例
下表列出付款平台服務等級指標、服務等級目標和服務等級協議的範例:
業務指標 | SLI | SLO | 服務水準協議 |
---|---|---|---|
付款交易成功 | 這項指標會以百分比的形式,顯示成功處理及確認的付款交易占所有發起交易的比例。 範例:(成功交易次數 ÷ 有效交易總次數) × 100,以 5 分鐘的滾動時間範圍計算。 |
內部目標:在特定期間內維持高比例的付款交易成功率。 示例:在 30 天的滾動週期內,維持 99.98% 的付款交易成功率,並排除無效要求和預定維護作業。 |
合約保證付款交易處理的成功率和速度。 範例:服務供應商保證,客戶發起的付款交易中,有 99.0% 會在一秒內成功處理並確認。 |
付款處理延遲 | 從客戶發起付款交易到最終確認,處理交易的平均時間。 範例:交易確認的平均回應時間 (以毫秒為單位),以 5 分鐘的滾動時間範圍為測量依據。 |
處理付款交易的速度內部目標。 示例:確保在 30 天的滾動期間內,有 99.5% 的付款交易在 400 毫秒內處理完畢。 |
合約承諾在指定時間範圍內解決重大付款處理問題。 示例:如果發生重大付款處理問題 (定義為影響超過 1% 交易的中斷),服務供應商承諾在問題回報或偵測到後兩小時內解決。 |
平台適用情形 | 核心付款處理 API 和使用者介面可供用戶端運作和存取的時間百分比。 範例:(總運作時間 − 停機時間) ÷ 總運作時間 × 100,以分鐘為單位計算。 |
核心付款平台的運作時間內部目標。 範例:在每個曆月,平台可用性達到 99.995%,不含排定的維護期間。 |
對客戶做出正式且具法律約束力的承諾,保證支付平台最低正常運作時間,包括未達標的後果。 示例:平台在每個曆月至少會維持 99.9% 的可用性,但預定維護時間除外。如果可用性低於最低等級,每下降 0.1%,客戶將獲得相當於每月服務費 5% 的服務抵免額。 |
使用 SLI 資料監控系統是否符合定義的 SLO,並確保符合 SLA。工程師和開發人員可使用一組定義完善的 SLI,在下列層級監控 FSI 應用程式:
- 直接在應用程式部署的服務中,例如 GKE 或 Cloud Run。
- 使用基礎架構元件 (例如負載平衡器) 提供的記錄。
OpenTelemetry 提供開放原始碼標準和技術組合,可擷取所有類型的遙測資料,包括指標、追蹤記錄和記錄檔。Google Cloud Managed Service for Prometheus 提供全代管、高度可擴充的指標後端,以及大規模運作 Prometheus 的功能。
如要進一步瞭解 SLI、SLO 和錯誤預算,請參閱 SRE 手冊。
如要開發有效的快訊和監控資訊主頁與機制,請搭配使用 Google Cloud Observability 工具和Google Cloud 監控。如要瞭解安全性專屬的監控和偵測功能,請參閱安全性支柱。
定義及測試事件管理程序
定義完善且定期測試的事件管理程序,可直接提升 Google Cloud中 FSI 工作負載的價值、效能、安全性和可靠性。這些程序可協助金融機構滿足嚴格的法規要求、保護私密/機密資料、維持業務連續性,並贏得客戶信任。
定期測試事件管理流程可帶來下列好處:
- 在尖峰負載下維持效能:定期進行效能和負載測試,有助於金融機構確保雲端應用程式和基礎架構能處理尖峰交易量、市場波動和其他高需求情境,且效能不會下降。這項功能對於維持流暢的使用者體驗,以及滿足金融市場的需求至關重要。
- 找出潛在瓶頸和限制:壓力測試會將系統推向極限,讓金融機構在潛在瓶頸和效能限制影響重要作業前,找出這些問題。這種主動式做法可讓金融機構調整基礎架構和應用程式,以獲得最佳效能和擴充性。
- 驗證可靠性和韌性:定期測試 (包括混亂工程或模擬故障) 有助於驗證金融系統的可靠性和韌性。這項測試可確保系統能從故障中順利復原,並維持高可用性,這對業務持續性至關重要。
- 有效規劃容量: 效能測試可提供不同負載條件下的資源用量相關寶貴資料,有助於準確規劃容量。 金融機構可運用這項資料,主動預測未來的容量需求,避免因資源限制而導致效能問題。
- 順利部署新功能和程式碼變更:將自動化測試整合至 CI/CD 管道,有助於確保變更和新部署項目在發布至正式環境前,都經過徹底驗證。這種做法可大幅降低錯誤和回歸的風險,避免作業中斷。
- 符合系統穩定性的法規要求:金融法規通常會要求機構採用完善的測試做法,確保重要系統的穩定性和可靠性。定期測試有助於證明您符合這些規定。
如要定義及測試事件管理程序,請參考下列建議。
建立明確的事件應變程序
一套完善的事件應變程序包含下列要素:
- 為事件指揮官、調查人員、溝通人員和技術專家定義角色和職責,確保有效且協調一致的應變措施。
- 定義通訊協定和向上呈報路徑,確保在事件期間及時有效地分享資訊。
- 手冊或劇本中記錄的程序,概述通報、分類、調查和解決問題的步驟。
- 定期訓練和準備,讓團隊具備有效應對的知識和技能。
定期執行效能和負載測試
定期進行效能和負載測試,有助於確保雲端應用程式和基礎架構能處理尖峰負載,並維持最佳效能。負載測試會模擬實際的流量模式。壓力測試會將系統推向極限,找出潛在瓶頸和效能限制。您可以運用 Cloud Load Balancing 和負載測試服務等產品,模擬實際流量。您可以根據測試結果調整雲端基礎架構和應用程式,以獲得最佳效能和擴充性。舉例來說,您可以調整資源分配或微調應用程式設定。
在持續整合/持續推送軟體更新管道中自動執行測試
在 CI/CD 管道中加入自動化測試,有助於在部署前驗證變更,確保雲端應用程式的品質和可靠性。這種做法可大幅降低錯誤和回歸的風險,並協助您建構更穩定可靠的軟體系統。您可以在 CI/CD 管道中納入不同類型的測試,包括單元測試、整合測試和端對端測試。使用 Cloud Build 和 Cloud Deploy 等產品,建立及管理 CI/CD 管道。
持續改良和創新
對於雲端中的金融服務工作負載,遷移至雲端只是第一步。持續強化和創新至關重要,原因如下:
- 加速創新:運用 AI 等新技術改善服務。
- 降低成本:消除效率不彰的情況,並最佳化資源用量。
- 提升靈活度:快速因應市場和法規變化。
- 改善決策品質:使用 BigQuery 和 Looker 等資料分析產品,做出明智的選擇。
為確保持續改善和創新,請考慮下列建議。
定期進行回顧
回顧對於持續改善事件應變程序至關重要,且有助於根據定期效能和負載測試的結果,調整測試策略。為確保回顧會議有效,請採取下列做法:
- 讓團隊有機會反思自己的體驗、找出做得好的地方,並找出需要改進的地方。
- 在專案里程碑、重大事件或重要測試週期後,進行回顧。團隊可以從成功和失敗中學習,並持續改善流程和做法。
- 請使用「開始、停止、繼續」等結構化方法,確保回顧會議能有效率地進行,並產生可執行的步驟。
- 透過回顧檢討,找出可進一步強化變更管理自動化的領域,以提高可靠性並降低風險。
培養學習文化
學習文化有助於安全探索新技術,例如運用 AI 和機器學習功能強化詐欺偵測和個人化財務建議等服務。Google Cloud如要推廣學習文化,請執行下列操作:
- 鼓勵團隊進行實驗、分享知識,並持續學習。
- 建立不究責的文化,將失敗視為成長和改善的機會。
- 建立心理安全感十足的環境,讓團隊敢於冒險,並考慮創新解決方案。團隊會從成功和失敗中學習,進而打造更具韌性和適應力的機構。
- 培養分享知識的文化,讓員工能從事件管理程序和測試演練中學習。
掌握雲端技術的最新動態
持續學習是瞭解及導入新安全措施、運用進階資料分析取得更深入的洞察資料,以及採用與金融業相關的創新解決方案的必要條件。
- 隨時掌握最新進展、功能和最佳做法,充分發揮 Google Cloud 服務的潛力。
- 推出新 Google Cloud 功能和服務時,請找出進一步自動化程序、提升安全性,以及改善應用程式效能和擴充性的機會。
- 參加相關研討會、網路研討會和訓練課程,拓展知識並瞭解新功能。
- 鼓勵團隊成員取得Google Cloud 認證,確保機構具備在雲端環境中獲得成功的必要技能。