雲端爆發是雲端運算中的一種設定,應用程式會在私有雲或地端部署資料中心執行,當運算能力需求激增時,就會「爆發」轉移至公有雲。這項功能就像溢流閥,當私人基礎架構的負荷達到上限時,流量會自動導向公有雲服務,確保服務不中斷,就像零售商店會在排隊人潮過多時,開放額外的結帳通道。雲端爆發設定是混合雲部署的其中一種特定類型。
在標準雲端擴充模式中,公司可能會嘗試在單一環境中處理所有工作。雖說擁有足夠的實體伺服器,或許能應付一年中最忙碌的一天,但伺服器在其他 364 天可能就會閒置不用。雲端爆發可解決這個問題,因為組織只需針對自家資料中心的基本容量支付費用,實際有需要時才額外付費使用公有雲資源。這種做法有利於公司處理突如其來的流量激增,不必購買昂貴的硬體,因為這些硬體並非隨時都需要。
如要瞭解雲端爆發的運作方式,不妨將私有雲想像成水箱。正常情況下,水 (資料流量) 會待在水箱空間內,但若突然下起暴雨 (流量尖峰),水箱裡的水可能會溢流。
在雲端爆發模式中,IT 團隊會設定「觸發條件」(即門檻),通常是資源使用率達到 70% 至 80% 左右時。一旦超過這個門檻,系統就會自動開啟通往第二個水箱 (公有雲) 的閥門,將溢出的流量導向公有雲資源,確保應用程式順暢運作。暴雨過後,流量降回正常水位,這時系統會關閉閥門以停用公有雲資源,讓作業完全回到私有雲執行。
團隊可根據所需的控管程度或自動化程度,以不同方式設定雲端爆發。
雲端爆發並非適用於所有應用程式,尤其是仰賴複雜機密資料的應用程式,因為這類資料必須儲存在私人網路中。雲端爆發通常最適合需求起起伏伏、具季節性變化或無法預測的工作負載,這類工作負載特別講求速度和正常運作時間,包括:
在黑色星期五或網購星期一等熱門購物檔期,零售商經常面臨流量大幅增加的情況。採用雲端爆發模式後,這些企業可透過公有雲處理數百萬名購物者的需求幾天,然後在購物熱潮結束後,縮減資源並回到私有基礎架構上營運。
資料科學家和工程師經常執行高效能運算 (HPC) 工作,例如複雜的模擬、AI 模型訓練,或是 3D 算繪等重度運算工作。這些工作可能需要數千部伺服器的支援,但只會使用幾個小時。採用雲端爆發模式後,團隊可暫時租用這類強大資源,不必苦苦排隊等待使用超級電腦,也不必自行建構使用率偏低的超級電腦。
軟體開發人員經常需要啟動臨時環境,用來測試新程式碼或更新。與其占用主要私人伺服器的空間,他們可以將這些測試環境透過雲端爆發轉移至公有雲,確保正式環境安全穩定。
如果本地資料中心因停電或天災而服務中斷,雲端爆發能起到容錯移轉之效,協助進行災難復原。系統可將流量重新導向至公有雲,確保應用程式持續運作,直到主要資料中心據點修復為止。
實作雲端爆發模式不只是要準備兩個運算環境,還需要制定策略,以順利在兩者之間遷移複雜的資料和應用程式。為有效達成這個目標,組織需要確保連線順暢以及一致的管理做法。
實作雲端爆發觸發條件最有效的方式之一,是使用 Google Kubernetes Engine (GKE) 和水平 Pod 自動配置器 (HPA) 搭配外部指標。在這個模式中,您的地端部署應用程式會將信號 (指標) 傳送至 Google Cloud Monitoring。當該信號超過門檻時,GKE 會自動在雲端啟動新的 Pod 來處理負載。
以下說明如何根據 Pub/Sub 佇列深度 (反映地端部署 worker 負載過重的常見指標) 設定觸發條件:
1. 啟用自訂指標 API:首先,您必須允許 GKE 叢集從 Cloud Monitoring 讀取指標。方法是將自訂指標 Stackdriver 轉接器部署至叢集。這個轉接器就像溝通橋梁,可將 Google Cloud 指標轉譯成 Kubernetes 能理解的格式。
2. 定義 HPA 設定:建立 HorizontalPodAutoscaler YAML 檔案。與監控 CPU 使用率的標準自動配置器不同,這個自動配置器會監控外部指標,也就是 Pub/Sub 訂閱中的未傳送訊息數 (num_undelivered_messages)。
3. 套用並監控:使用 kubectl apply -f hpa.yaml 指令套用設定。現在起,GKE 會「監控」佇列,若地端部署系統速度變慢,且佇列中累積的項目超過目標值 (50 則訊息),HPA 會自動在雲端建立新 Pod 來處理待處理項目。佇列清空後,GKE 會將 Pod 數量縮減至零。
無法掌握資源,便難以管理。如要順利實作雲端爆發,IT 團隊必須清楚掌握私人資料中心和公有雲的資源。Google Cloud 提供多種工具,可讓您深入瞭解應用程式的 CPU 和記憶體使用情形。
團隊只要確切掌握應用程式消耗多少「燃料」,就能精準設定爆發門檻。如果門檻太低,您可能會支付不必要的公有雲使用費;如果設定過高,應用程式可能會在取得新資源前當機。組織可以透過統合式監控功能微調這些設定,兼顧效能與成本。
手動平衡適用於小型、不頻繁進行的專案,但可能無法配合企業應用程式妥善擴充資源。為了提高效率,組織可以導入軟體和工具,以自動調度並管理雲端運算資源。Terraform 或 Google Cloud 的 Deployment Manager 等自動化工具,可協助您定義基礎架構即程式碼 (IaC)。
也就是說,系統能根據即時需求自動佈建、設定及管理伺服器。當流量高峰期結束後,自動化工具也會處理這些資源的「取消佈建」(即關機)。這樣一來,當公司不再需要使用公有雲時,就能立即停止支付相關費用。
在雲端爆發期間保有控管權,對資安和預算管理至關重要。組織需要強大的監控功能,才能追蹤資源並確保資源配置妥當,避免服務中斷。
報表工具可協助長期追蹤雲端爆發作業的費用,這項資料對於預測未來預算至關重要。此外,雲端爆發資源也必須套用一致的安全性政策。監控和報表工具可追蹤使用趨勢和異常狀況,長期下來有助於降低成本及提高效率。
對於想在成效和預算之間取得平衡的組織來說,採用雲端爆發策略可帶來多項優勢。
節省成本
公司只須在實際使用額外公有雲資源時付費,避免花錢購買硬體後卻經常閒置不用。
彈性與擴充性
團隊可以自由測試新專案,或處理流量尖峰情形,不會受限於自家資料中心的實體空間或電力負荷。
營運持續與韌性
如果私人資料中心發生問題或不堪負荷,系統會將負載轉移至公有雲,確保應用程式不斷線,防止當機和停機等狀況發生。
資源最佳化
IT 團隊可確保私有雲穩定且有效率地執行重要工作,並將不穩定、無法預測的流量轉給彈性的公有雲。
雖然雲端爆發是通用的概念,但各家供應商所提供的相應基礎架構卻大不相同。Google Cloud 具備多項優勢,能有效提升混合雲爆發的速度、可靠性和管理便利性。