什麼是雲端爆發?

雲端爆發是雲端運算中的一種設定,應用程式會在私有雲或地端部署資料中心執行,當運算能力需求激增時,就會「爆發」轉移至公有雲。這項功能就像溢流閥,當私人基礎架構的負荷達到上限時,流量會自動導向公有雲服務,確保服務不中斷,就像零售商店會在排隊人潮過多時,開放額外的結帳通道。雲端爆發設定是混合雲部署的其中一種特定類型。

在標準雲端擴充模式中,公司可能會嘗試在單一環境中處理所有工作。雖說擁有足夠的實體伺服器,或許能應付一年中最忙碌的一天,但伺服器在其他 364 天可能就會閒置不用。雲端爆發可解決這個問題,因為組織只需針對自家資料中心的基本容量支付費用,實際有需要時才額外付費使用公有雲資源。這種做法有利於公司處理突如其來的流量激增,不必購買昂貴的硬體,因為這些硬體並非隨時都需要。

雲端爆發的運作方式

如要瞭解雲端爆發的運作方式,不妨將私有雲想像成水箱。正常情況下,水 (資料流量) 會待在水箱空間內,但若突然下起暴雨 (流量尖峰),水箱裡的水可能會溢流。

在雲端爆發模式中,IT 團隊會設定「觸發條件」(即門檻),通常是資源使用率達到 70% 至 80% 左右時。一旦超過這個門檻,系統就會自動開啟通往第二個水箱 (公有雲) 的閥門,將溢出的流量導向公有雲資源,確保應用程式順暢運作。暴雨過後,流量降回正常水位,這時系統會關閉閥門以停用公有雲資源,讓作業完全回到私有雲執行。

雲端爆發的類型

團隊可根據所需的控管程度或自動化程度,以不同方式設定雲端爆發。

  • 手動爆發:管理員手動新增公有雲資源時,可以進行這項操作。這種做法適用於可預測的事件,例如預計發布軟體時,人員可以準確決定何時開始和停止使用額外容量。
  • 自動爆發:這種做法會運用軟體政策觸發爆發作業。當系統偵測到資源用量達到特定上限時,就會自動在公有雲中啟動額外資源,無需人為介入。
  • 分散式負載平衡:這種做法會同時在私有雲和公有雲之間分配流量,將使用者要求轉送至距離最近,或當下可用容量最多的位置。

使用雲端爆發的時機

雲端爆發並非適用於所有應用程式,尤其是仰賴複雜機密資料的應用程式,因為這類資料必須儲存在私人網路中。雲端爆發通常最適合需求起起伏伏、具季節性變化或無法預測的工作負載,這類工作負載特別講求速度和正常運作時間,包括:

在黑色星期五或網購星期一等熱門購物檔期,零售商經常面臨流量大幅增加的情況。採用雲端爆發模式後,這些企業可透過公有雲處理數百萬名購物者的需求幾天,然後在購物熱潮結束後,縮減資源並回到私有基礎架構上營運。

資料科學家和工程師經常執行高效能運算 (HPC) 工作,例如複雜的模擬、AI 模型訓練,或是 3D 算繪等重度運算工作。這些工作可能需要數千部伺服器的支援,但只會使用幾個小時。採用雲端爆發模式後,團隊可暫時租用這類強大資源,不必苦苦排隊等待使用超級電腦,也不必自行建構使用率偏低的超級電腦。

軟體開發人員經常需要啟動臨時環境,用來測試新程式碼或更新。與其占用主要私人伺服器的空間,他們可以將這些測試環境透過雲端爆發轉移至公有雲,確保正式環境安全穩定。

如果本地資料中心因停電或天災而服務中斷,雲端爆發能起到容錯移轉之效,協助進行災難復原。系統可將流量重新導向至公有雲,確保應用程式持續運作,直到主要資料中心據點修復為止。

組織如何實作雲端爆發?

實作雲端爆發模式不只是要準備兩個運算環境,還需要制定策略,以順利在兩者之間遷移複雜的資料和應用程式。為有效達成這個目標,組織需要確保連線順暢以及一致的管理做法。

使用 GKE 設定爆發觸發條件

實作雲端爆發觸發條件最有效的方式之一,是使用 Google Kubernetes Engine (GKE)水平 Pod 自動配置器 (HPA) 搭配外部指標。在這個模式中,您的地端部署應用程式會將信號 (指標) 傳送至 Google Cloud Monitoring。當該信號超過門檻時,GKE 會自動在雲端啟動新的 Pod 來處理負載。

以下說明如何根據 Pub/Sub 佇列深度 (反映地端部署 worker 負載過重的常見指標) 設定觸發條件:

1. 啟用自訂指標 API:首先,您必須允許 GKE 叢集從 Cloud Monitoring 讀取指標。方法是將自訂指標 Stackdriver 轉接器部署至叢集。這個轉接器就像溝通橋梁,可將 Google Cloud 指標轉譯成 Kubernetes 能理解的格式。

  • Bash
載入中…

2. 定義 HPA 設定:建立 HorizontalPodAutoscaler YAML 檔案。與監控 CPU 使用率的標準自動配置器不同,這個自動配置器會監控外部指標,也就是 Pub/Sub 訂閱中的未傳送訊息數 (num_undelivered_messages)。

  • YAML
載入中…

3. 套用並監控:使用 kubectl apply -f hpa.yaml 指令套用設定。現在起,GKE 會「監控」佇列,若地端部署系統速度變慢,且佇列中累積的項目超過目標值 (50 則訊息),HPA 會自動在雲端建立新 Pod 來處理待處理項目。佇列清空後,GKE 會將 Pod 數量縮減至零。

監控並進行微調

無法掌握資源,便難以管理。如要順利實作雲端爆發,IT 團隊必須清楚掌握私人資料中心和公有雲的資源。Google Cloud 提供多種工具,可讓您深入瞭解應用程式的 CPU 和記憶體使用情形。

團隊只要確切掌握應用程式消耗多少「燃料」,就能精準設定爆發門檻。如果門檻太低,您可能會支付不必要的公有雲使用費;如果設定過高,應用程式可能會在取得新資源前當機。組織可以透過統合式監控功能微調這些設定,兼顧效能與成本。

自動化扮演的角色

手動平衡適用於小型、不頻繁進行的專案,但可能無法配合企業應用程式妥善擴充資源。為了提高效率,組織可以導入軟體和工具,以自動調度並管理雲端運算資源。Terraform 或 Google Cloud 的 Deployment Manager 等自動化工具,可協助您定義基礎架構即程式碼 (IaC)。

也就是說,系統能根據即時需求自動佈建、設定及管理伺服器。當流量高峰期結束後,自動化工具也會處理這些資源的「取消佈建」(即關機)。這樣一來,當公司不再需要使用公有雲時,就能立即停止支付相關費用。

控管機制 (監控與報告)

在雲端爆發期間保有控管權,對資安和預算管理至關重要。組織需要強大的監控功能,才能追蹤資源並確保資源配置妥當,避免服務中斷。

報表工具可協助長期追蹤雲端爆發作業的費用,這項資料對於預測未來預算至關重要。此外,雲端爆發資源也必須套用一致的安全性政策。監控和報表工具可追蹤使用趨勢和異常狀況,長期下來有助於降低成本及提高效率。

雲端爆發的優點

對於想在成效和預算之間取得平衡的組織來說,採用雲端爆發策略可帶來多項優勢。

節省成本

公司只須在實際使用額外公有雲資源時付費,避免花錢購買硬體後卻經常閒置不用。

彈性與擴充性

團隊可以自由測試新專案,或處理流量尖峰情形,不會受限於自家資料中心的實體空間或電力負荷。

營運持續與韌性

如果私人資料中心發生問題或不堪負荷,系統會將負載轉移至公有雲,確保應用程式不斷線,防止當機和停機等狀況發生。

資源最佳化

IT 團隊可確保私有雲穩定且有效率地執行重要工作,並將不穩定、無法預測的流量轉給彈性的公有雲。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。

Google Cloud 在爆發和擴充性方面的優勢

雖然雲端爆發是通用的概念,但各家供應商所提供的相應基礎架構卻大不相同。Google Cloud 具備多項優勢,能有效提升混合雲爆發的速度、可靠性和管理便利性。

  • GKE Enterprise 提供一致的平台:許多混合式解決方案需要團隊管理兩個不同的環境,一個用於地端部署,另一個用於雲端,這可能會在爆發期間產生相容性問題。Google Cloud 的 GKE Enterprise 可在兩種環境之間提供一致的 Kubernetes 執行階段。也就是說,專為私人資料中心打造的應用程式,可以立即爆發至 Google Cloud,不必變更程式碼或進行複雜的平台轉換。
  • 網路效能更佳:應用程式爆發時,資料必須在私人資料中心和公有雲之間傳輸。Google 擁有全球數一數二的私人光纖網路,Google Cloud 正是透過這個私人骨幹網路 (而非公開網際網路) 傳輸流量,因此能在流量高峰期間降低延遲並提升安全性。
  • 進階全域負載平衡:Google Cloud Load Balancing 不僅能將流量導向適當位置,還能在幾秒內 (而非幾分鐘) 因應流量驟增的情況,在全球各地區分配負載。如果本地爆發仍無法提供足夠處理能力,網路會自動將使用者導向至下一個最近且有可用容量的地區,這是標準網路工具難以企及的韌性。
  • 開放原始碼的靈活性:Google Cloud 以 Kubernetes 和 TensorFlow 等開放標準建構而成,因此組織不必受制於單一供應商。您可以制定符合當下需求的爆發策略,並因應日後營運需求彈性調整基礎架構。

其他資源

後續行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。