監控 Cloud BigTable 執行個體

您可以利用 Google Cloud Platform 主控台Stackdriver Monitoring 中提供的圖表,以視覺化方式監控 Cloud BigTable 執行個體,或透過程式利用 Stackdriver Monitoring 進行監控。

透過從 Google Cloud Platform 主控台和 Stackdriver Monitoring 取得的資料可提供 Cloud BigTable 使用情形的概要總覽。您也可以使用 Key Visualizer 工具,透過資料列索引鍵細查您的存取模式,並解決特定的效能問題。若要瞭解詳細內容,請參閱 Key Visualizer 入門指南

瞭解 CPU 和磁碟使用情況

無論您使用什麼工具監控叢集,重點是必須監控執行個體中每一叢集的 CPU 和磁碟使用情況。如果叢集的CPU或磁碟使用情況超過某個臨界值,叢集的效能就不理想,當您嘗試讀取或寫入資料時,可能會傳回錯誤。

CPU 使用情況

叢集中的節點使用 CPU 資源來處理讀取、寫入和管理任務。若要進一步瞭解節點數如何影響叢集效能,請參閱典型工作負載的效能

Cloud Bigtable 會報告下列 CPU 使用情況的指標︰

指標 說明
平均 CPU 使用率

叢集中所有節點的平均 CPU 使用率。

這個建議的最大值能為使用期間短暫出現的尖峰期提供緩衝空間。

如果叢集超過最大建議值數分鐘,請為叢集新增節點。

最繁忙節點的 CPU 使用率

叢集中最繁忙節點的 CPU 使用率。

如果最忙碌的節點經常高於建議值,即使您的平均 CPU 使用率很合理,仍代表您可能頻繁地存取資料中的一小部分。

  • 您可以使用 Key Visualizer 工具在資料表中找出可能導致 CPU 使用率尖峰的資源使用率不均情形。
  • 請檢查您的結構定義設計,以確保其支援不同資料表之間平均分配讀取與寫入作業。

這些指標值不得超過以下標準:

設定 建議的最大值
單一叢集

平均 CPU 使用率的 70%
最繁忙節點 CPU 使用率的 90%

使用單叢集轉送的任意數量叢集

平均 CPU 使用率的 70%
最繁忙節點 CPU 使用率的 90%

使用多叢集轉送的 2 個叢集

平均 CPU 使用率的 35%
最繁忙節點 CPU 使用率的 45%

使用多叢集轉送的 3 個以上叢集

取決於您的設定。常見用途詳情請參閱複製功能設定範例

磁碟使用率

Cloud Bigtable 會為您執行個體中的每一叢集,儲存該執行個體中所有資料表的單獨複本。

Cloud Bigtable 利用二進制單位 (例如二進制的千兆位元組 (GB)) 來追蹤磁碟使用情況,其中 1 GB 等於 230 位元組。(這種計算單位又稱為 GiB)。

Cloud Bigtable 會報告下列磁碟使用情況的指標︰

指標 說明
儲存空間使用率 (位元組)

儲存在叢集中的資料。

這個值會影響您的成本。 此外如以下敘述,當資料量增加時, 您可能需要為每個叢集新增節點。

儲存空間使用率 (% 上限)

叢集儲存空間的使用百分比。容量是根據叢集中的節點數量而定。

一般而言,使用儲存空間時請不要超過總儲存空間固定限制的 70%,才有空間可以新增更多資料。若您不打算在執行個體中加入大量的資料,則可以將固定限制 100% 用盡。

如果您使用的儲存空間超過建議的儲存空間限制百分比,請為叢集新增節點。您也可以刪除現有的資料,不過在進行壓縮前,您刪除的資料會佔用「更多」的空間 (而不是更少)

如要進一步瞭解這個值的計算方式,請參閱每個節點的儲存空間使用率

磁碟負載

您的叢集所使用的百分比是用於 HDD 讀取與寫入的最大可能頻寬。 僅適用於 HDD 叢集。

如果這個值經常為100%, 則可能會遇到延遲增加的情形。請為叢集 新增節點,以降低磁碟負載百分比。

以 GCP 主控台取得效能總覽

請使用執行個體的總覽頁面,來瞭解您的執行個體的叢集目前的狀況是否健全。

總覽頁面顯示每一叢集的幾個關鍵指標目前的值:

指標 說明
平均 CPU 使用率 叢集中所有節點的平均 CPU 使用率。
最繁忙節點的 CPU 使用率

叢集中最繁忙節點的 CPU 使用率。

超過最繁忙節點的建議最大值可能造成延遲及其他叢集問題。

已讀取列數 每秒讀取的列數。
已寫入列數 每秒寫入的列數。
讀取總處理量 傳送回應資料時每秒的未壓縮位元組數。而如果套用篩選器,這個指標則指傳回的全部資料量。
寫入總處理量 寫入資料時,每秒收到的未壓縮位元組數。
系統錯誤率 在 Cloud Bigtable 伺服器端失敗的所有要求所佔的百分比。
輸入的複製延遲時間 寫入其他叢集與同一寫入操作被複製到此叢集之間的平均時間 (第 99 百分位數),以秒為單位。
輸出的複製延遲時間 寫入此叢集與同一寫入操作被複製到其他叢集之間的平均時間 (第 99 百分位數),以秒為單位。

若要查看這些關鍵指標的總覽︰

  1. 在 GCP 主控台中開啟 Cloud Bigtable 執行個體的清單。

    開啟執行個體清單

  2. 按一下您要查看指標的執行個體。 GCP 主控台會顯示您的執行個體叢集目前的指標值。

利用 GCP 主控台監控長時間的效能

請使用執行個體的監控頁面,以瞭解執行個體過去的效能。您可以分析每一叢集的效能,並針對不同類型的 Cloud Bigtable 資源將指標分類。圖表可以顯示從過去 1 小時到過去 30 天的時間段。

Cloud Bigtable 資源的圖表

監控頁面顯示以下種類的 Cloud Bigtable 資源圖表:

  • 執行個體
  • 資料表
  • 應用程式設定檔

下列指標可使用圖表:

指標 適用於 說明
CPU 使用率 執行個體 叢集中所有節點的平均 CPU 使用率。
CPU 使用率 (最繁忙的節點) 執行個體

叢集中最繁忙節點的 CPU 使用率。

超過最繁忙節點的建議最大值可能造成延遲及其他叢集問題。

使用者錯誤率 執行個體

要求內容造成的錯誤率,並非 Cloud Bigtable 伺服器端的錯誤。

使用者錯誤通常是由於設定問題,例如指定了錯誤的叢集、資料表或應用程式設定檔的要求。

系統錯誤率 執行個體
資料表
應用程式設定檔
在 Cloud Bigtable 伺服器端失敗的所有要求所佔的百分比。
儲存空間使用率 (位元組) 執行個體
資料表

儲存於叢集中的資料量。

本指標反映當 Cloud Bigtable 儲存您的資料時,會將其壓縮的事實。

儲存空間使用率 (%上限) 執行個體

叢集儲存空間容量的使用百分比。容量是根據叢集中的節點數量而定。

關於這個值如何計算的詳細資訊,請參閱 每一節點的儲存空間使用率

磁碟負載 執行個體 您的叢集所使用 HDD 讀取與寫入最大可能頻寬的百分比。 僅適用於 HDD 叢集。
已讀取列數 執行個體
資料表
應用程式設定檔

每秒讀取的列數。

對於 Cloud Bigtable 的總處理量,此指標可以提供比讀取要求數更有用的觀點,因為一筆要求可能會讀取大量的資料列。

已寫入列數 執行個體
資料表
應用程式設定檔

每秒寫入的列數。

對於 Cloud Bigtable 的總處理量,此指標可以提供比寫入要求數更有用的觀點,因為一筆要求可能會寫入大量的資料列。

讀取要求數 執行個體
資料表
應用程式設定檔
每秒隨機讀取數與掃描要求數。
寫入要求數 執行個體
資料表
應用程式設定檔
每秒隨機寫入要求數。
讀取總處理量 執行個體
資料表
應用程式設定檔
傳送回應資料時每秒的未壓縮位元組數。而如果套用篩選器,這個指標則指傳回的全部資料量。
寫入總處理量 執行個體
資料表
應用程式設定檔
寫入資料時,每秒收到的未壓縮位元組數。
節點數 執行個體 叢集中的節點數。

若要查看這些資源的指標:

  1. 在 GCP 主控台中開啟 Cloud Bigtable 執行個體的清單。

    開啟執行個體清單

  2. 按一下您要查看指標的執行個體。

  3. 按一下左側窗格中的 [監控]。GCP 主控台會顯示執行個體的一系列圖表,以及執行個體指標的表格檢視。根據預設,GCP 主控台會顯示過去一小時的指標,為執行個體中每個叢集顯示個別的指標。

    要查看所有圖表,請捲動顯示圖表的窗格。

    要查看個別資料表或應用程式設定檔的指標,請按一下 [查看指標] 下拉式清單,然後選擇 [資料表] 或 [應用程式設定檔]

    要查看執行個體整體的組合指標,請找出圖表上方的 [分組] 區段,然後按一下 [執行個體]

    要查看較長時間區段的指標,請按一下圖表右上方的其中一個時間段。

複製功能的圖表

監控頁面提供一張圖表,顯示一段時間內的複製延遲時間。 您可以查看複製寫入在第 50、第 99、和第 100 百分位數的平均延遲時間。

如何查看一段時間內的複製延遲時間︰

  1. 在 GCP 主控台中開啟 Cloud Bigtable 執行個體的清單。

    開啟執行個體清單

  2. 按一下您要查看指標的執行個體。

  3. 按一下左側窗格中的 [監控]

  4. 在 [查看指標:] 下拉式清單中選擇 [複製]。GCP 主控台會顯示一段時間內的複製延遲時間。根據預設,GCP 主控台會顯示過去一小時的複製延遲時間。

    您可能會看到一條灰棒遮蓋了一部分的圖形。灰棒表示在該段期間內沒有發生複製,可能是因為沒有從外界傳入的寫入操作,或者 Cloud Bigtable 服務出了問題。在這些期間內的延遲時間指標可能不準確。

    要變更指標是否聚集為執行個體整體或依叢集分別顯示,請按一下 [分組] 下的其中一個按鈕。

    要變更欲察看的百分位數,請按一下 [百分位數] 下的其中一個按鈕

    要查看較長時間區段的指標,請按一下圖表右上方的其中一個時間段。

利用 Stackdriver Monitoring 監控執行個體

Cloud BigTable 可匯出使用情況指標,讓您可以透過程式利用 Stackdriver Monitoring 進行監控。您可以使用 Stackdriver Monitoring API 或 Metrics Explorer 來追蹤 Cloud Bigtable 使用情況指標。此外,您也可以根據使用情況指標來設定快訊政策,以及將 Cloud BigTable 使用情況指標的圖表新增至自訂資訊主頁

如何在 Metrics Explorer 中查看使用情況指標︰

  1. 在 GCP 主控台中開啟監控頁面。

    開啟「Monitoring」頁面

    如果您被提示要選擇帳戶,請選擇用來進入 Google Cloud Platform 的帳戶。

  2. 按一下 [資源],然後按一下 [Metrics Explorer]

  3. 在「Find resource type and metric」(搜尋資源類型和指標) 底下,輸入 bigtable。此時會出現 Cloud Bigtable 資源和指標的清單。

  4. 按一下某一指標,以查看該指標的圖表。

您也可以使用繪圖程式庫 (例如 Python 的 Matplotlib) 來繪製和分析 Cloud Bigtable 的使用情況指標。若要進一步瞭解,請參閱搭配 Stackdriver Monitoring 和 Cloud Bigtable 使用 Matplotlib 的教程

關於使用 Stackdriver Monitoring 的詳細資訊,請參閱 Stackdriver Monitoring 說明文件

相關資源

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Bigtable 說明文件