什麼是雲端爆發？

雲端爆發是雲端運算中的一種設定，應用程式會在私有雲或地端部署資料中心執行，當運算能力需求激增時，就會「爆發」轉移至公有雲。這項功能就像溢流閥，當私人基礎架構的負荷達到上限時，流量會自動導向公有雲服務，確保服務不中斷，就像零售商店會在排隊人潮過多時，開放額外的結帳通道。雲端爆發設定是混合雲部署的其中一種特定類型。

在標準雲端擴充模式中，公司可能會嘗試在單一環境中處理所有工作。雖說擁有足夠的實體伺服器，或許能應付一年中最忙碌的一天，但伺服器在其他 364 天可能就會閒置不用。雲端爆發可解決這個問題，因為組織只需針對自家資料中心的基本容量支付費用，實際有需要時才額外付費使用公有雲資源。這種做法有利於公司處理突如其來的流量激增，不必購買昂貴的硬體，因為這些硬體並非隨時都需要。

雲端爆發的運作方式

如要瞭解雲端爆發的運作方式，不妨將私有雲想像成水箱。正常情況下，水 (資料流量) 會待在水箱空間內，但若突然下起暴雨 (流量尖峰)，水箱裡的水可能會溢流。

在雲端爆發模式中，IT 團隊會設定「觸發條件」(即門檻)，通常是資源使用率達到 70% 至 80% 左右時。一旦超過這個門檻，系統就會自動開啟通往第二個水箱 (公有雲) 的閥門，將溢出的流量導向公有雲資源，確保應用程式順暢運作。暴雨過後，流量降回正常水位，這時系統會關閉閥門以停用公有雲資源，讓作業完全回到私有雲執行。

雲端爆發的類型

團隊可根據所需的控管程度或自動化程度，以不同方式設定雲端爆發。

手動爆發：管理員手動新增公有雲資源時，可以進行這項操作。這種做法適用於可預測的事件，例如預計發布軟體時，人員可以準確決定何時開始和停止使用額外容量。
自動爆發：這種做法會運用軟體政策觸發爆發作業。當系統偵測到資源用量達到特定上限時，就會自動在公有雲中啟動額外資源，無需人為介入。
分散式負載平衡：這種做法會同時在私有雲和公有雲之間分配流量，將使用者要求轉送至距離最近，或當下可用容量最多的位置。

使用雲端爆發的時機

雲端爆發並非適用於所有應用程式，尤其是仰賴複雜機密資料的應用程式，因為這類資料必須儲存在私人網路中。雲端爆發通常最適合需求起起伏伏、具季節性變化或無法預測的工作負載，這類工作負載特別講求速度和正常運作時間，包括：

季節性或預期需求高點

在黑色星期五或網購星期一等熱門購物檔期，零售商經常面臨流量大幅增加的情況。採用雲端爆發模式後，這些企業可透過公有雲處理數百萬名購物者的需求幾天，然後在購物熱潮結束後，縮減資源並回到私有基礎架構上營運。

需要大量資源的短期工作

資料科學家和工程師經常執行高效能運算 (HPC) 工作，例如複雜的模擬、AI 模型訓練，或是 3D 算繪等重度運算工作。這些工作可能需要數千部伺服器的支援，但只會使用幾個小時。採用雲端爆發模式後，團隊可暫時租用這類強大資源，不必苦苦排隊等待使用超級電腦，也不必自行建構使用率偏低的超級電腦。

開發與測試 (Dev/test)

軟體開發人員經常需要啟動臨時環境，用來測試新程式碼或更新。與其占用主要私人伺服器的空間，他們可以將這些測試環境透過雲端爆發轉移至公有雲，確保正式環境安全穩定。

支援災難復原 (DR)

如果本地資料中心因停電或天災而服務中斷，雲端爆發能起到容錯移轉之效，協助進行災難復原。系統可將流量重新導向至公有雲，確保應用程式持續運作，直到主要資料中心據點修復為止。

組織如何實作雲端爆發？

實作雲端爆發模式不只是要準備兩個運算環境，還需要制定策略，以順利在兩者之間遷移複雜的資料和應用程式。為有效達成這個目標，組織需要確保連線順暢以及一致的管理做法。

使用 GKE 設定爆發觸發條件

實作雲端爆發觸發條件最有效的方式之一，是使用 Google Kubernetes Engine (GKE) 和水平 Pod 自動配置器 (HPA) 搭配外部指標。在這個模式中，您的地端部署應用程式會將信號 (指標) 傳送至 Google Cloud Monitoring。當該信號超過門檻時，GKE 會自動在雲端啟動新的 Pod 來處理負載。

以下說明如何根據 Pub/Sub 佇列深度 (反映地端部署 worker 負載過重的常見指標) 設定觸發條件：

1. 啟用自訂指標 API：首先，您必須允許 GKE 叢集從 Cloud Monitoring 讀取指標。方法是將自訂指標 Stackdriver 轉接器部署至叢集。這個轉接器就像溝通橋梁，可將 Google Cloud 指標轉譯成 Kubernetes 能理解的格式。

載入中…

2. 定義 HPA 設定：建立 HorizontalPodAutoscaler YAML 檔案。與監控 CPU 使用率的標準自動配置器不同，這個自動配置器會監控外部指標，也就是 Pub/Sub 訂閱中的未傳送訊息數 (num_undelivered_messages)。

載入中…

3. 套用並監控：使用 kubectl apply -f hpa.yaml 指令套用設定。現在起，GKE 會「監控」佇列，若地端部署系統速度變慢，且佇列中累積的項目超過目標值 (50 則訊息)，HPA 會自動在雲端建立新 Pod 來處理待處理項目。佇列清空後，GKE 會將 Pod 數量縮減至零。

監控並進行微調

無法掌握資源，便難以管理。如要順利實作雲端爆發，IT 團隊必須清楚掌握私人資料中心和公有雲的資源。Google Cloud 提供多種工具，可讓您深入瞭解應用程式的 CPU 和記憶體使用情形。

團隊只要確切掌握應用程式消耗多少「燃料」，就能精準設定爆發門檻。如果門檻太低，您可能會支付不必要的公有雲使用費；如果設定過高，應用程式可能會在取得新資源前當機。組織可以透過統合式監控功能微調這些設定，兼顧效能與成本。

自動化扮演的角色

手動平衡適用於小型、不頻繁進行的專案，但可能無法配合企業應用程式妥善擴充資源。為了提高效率，組織可以導入軟體和工具，以自動調度並管理雲端運算資源。Terraform 或 Google Cloud 的 Deployment Manager 等自動化工具，可協助您定義基礎架構即程式碼 (IaC)。

也就是說，系統能根據即時需求自動佈建、設定及管理伺服器。當流量高峰期結束後，自動化工具也會處理這些資源的「取消佈建」(即關機)。這樣一來，當公司不再需要使用公有雲時，就能立即停止支付相關費用。

控管機制 (監控與報告)

在雲端爆發期間保有控管權，對資安和預算管理至關重要。組織需要強大的監控功能，才能追蹤資源並確保資源配置妥當，避免服務中斷。

報表工具可協助長期追蹤雲端爆發作業的費用，這項資料對於預測未來預算至關重要。此外，雲端爆發資源也必須套用一致的安全性政策。監控和報表工具可追蹤使用趨勢和異常狀況，長期下來有助於降低成本及提高效率。

雲端爆發的優點

對於想在成效和預算之間取得平衡的組織來說，採用雲端爆發策略可帶來多項優勢。

節省成本

公司只須在實際使用額外公有雲資源時付費，避免花錢購買硬體後卻經常閒置不用。

彈性與擴充性

團隊可以自由測試新專案，或處理流量尖峰情形，不會受限於自家資料中心的實體空間或電力負荷。

營運持續與韌性

如果私人資料中心發生問題或不堪負荷，系統會將負載轉移至公有雲，確保應用程式不斷線，防止當機和停機等狀況發生。

資源最佳化

IT 團隊可確保私有雲穩定且有效率地執行重要工作，並將不穩定、無法預測的流量轉給彈性的公有雲。

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額，盡情試用各項 Google Cloud 功能。

Google Cloud 在爆發和擴充性方面的優勢

雖然雲端爆發是通用的概念，但各家供應商所提供的相應基礎架構卻大不相同。Google Cloud 具備多項優勢，能有效提升混合雲爆發的速度、可靠性和管理便利性。

GKE Enterprise 提供一致的平台：許多混合式解決方案需要團隊管理兩個不同的環境，一個用於地端部署，另一個用於雲端，這可能會在爆發期間產生相容性問題。Google Cloud 的 GKE Enterprise 可在兩種環境之間提供一致的 Kubernetes 執行階段。也就是說，專為私人資料中心打造的應用程式，可以立即爆發至 Google Cloud，不必變更程式碼或進行複雜的平台轉換。
網路效能更佳：應用程式爆發時，資料必須在私人資料中心和公有雲之間傳輸。Google 擁有全球數一數二的私人光纖網路，Google Cloud 正是透過這個私人骨幹網路 (而非公開網際網路) 傳輸流量，因此能在流量高峰期間降低延遲並提升安全性。
進階全域負載平衡：Google Cloud Load Balancing 不僅能將流量導向適當位置，還能在幾秒內 (而非幾分鐘) 因應流量驟增的情況，在全球各地區分配負載。如果本地爆發仍無法提供足夠處理能力，網路會自動將使用者導向至下一個最近且有可用容量的地區，這是標準網路工具難以企及的韌性。
開放原始碼的靈活性：Google Cloud 以 Kubernetes 和 TensorFlow 等開放標準建構而成，因此組織不必受制於單一供應商。您可以制定符合當下需求的爆發策略，並因應日後營運需求彈性調整基礎架構。