BigQuery 管理簡介
本文將介紹 BigQuery 管理工作,以及協助您完成這些工作的 BigQuery 功能。
BigQuery 管理員通常會執行下列類型的工作:
- 管理專案、資料集和資料表等資源。
- 保護資源,僅限需要存取權的主體存取。
- 管理工作負載,例如作業、查詢和運算容量 (預留)。
- 監控資源,包括配額、作業和運算用量。
- 在控管費用的同時,盡可能提高工作負載的效能。
- 排解錯誤訊息、帳單問題和配額。
本文將概述 BigQuery 提供的功能,協助您完成這些工作。
如要直接在 Google Cloud 控制台中導覽 BigQuery 資料管理功能,請按一下「Take the tour」(參加導覽)。
工具
BigQuery 提供多種介面,可用於執行管理工作。通常特定工作可使用多種工具完成,因此您可以選擇最適合自己的工具。舉例來說,您可以使用Google Cloud 控制台中的「探索」窗格、bq mk --table
指令或 CREATE TABLE
SQL 陳述式建立資料表。
- Google Cloud console. Google Cloud 控制台提供多個專為 BigQuery 管理作業設計的頁面。詳情請參閱「使用 Google Cloud 控制台」一文。
SQL 陳述式。Google Cloud 控制台的 BigQuery 頁面提供查詢編輯器,您可以使用 DDL 和 DCL 陳述式執行管理工作。詳情請參閱資料定義語言 (DDL)和資料控制語言 (DCL)。
您可以使用儲存程序,自動執行使用 SQL 陳述式的管理工作。詳情請參閱「使用預存程序」。
bq
指令。您可以使用 bq 指令列工具,透過bq
指令執行許多管理工作。您可以使用 bq 指令列工具執行 Google Cloud 控制台不支援的工作,在查詢或 API 方法中編碼功能之前先進行原型設計,或在指令列介面中工作。詳情請參閱「使用 bq 指令列工具」。
管理資源
BigQuery 資源包括機構、資料夾、專案、資料集和資料表。本節說明如何管理機構的資源。
如要瞭解 BigQuery 資源階層,請參閱「整理 BigQuery 資源」。具體來說,您可以建立機構資源,在機構層級執行設定存取權控管等工作。
管理資料集
資料集是資料表的容器,您可以在資料集中建立資料表,然後以群組形式管理這些資料表。舉例來說,您可以設定資料集的預設資料表到期時間,這項設定會套用至資料集中的所有資料表,除非您覆寫這項設定。您可以複製資料集來複製一組資料表,並在資料集層級控管資料表存取權。
如要進一步瞭解資料集管理,請參閱下列文件:
管理資料表
BigQuery 會將資料儲存在資料表中,方便您查詢。您可以建立資料表、從各種來源以各種格式將資料載入資料表、根據特定資料欄或擷取時間將資料表分區、叢集資料表、更新資料表屬性,以及匯出資料表資料。
如要進一步瞭解表格管理,請參閱下列文件:
- 如要進一步瞭解如何將資料載入 BigQuery 資料表,請參閱「載入資料表簡介」一文。
- 如要進一步瞭解如何管理資料表及匯出資料表資料,請參閱資料表簡介。
- 如要進一步瞭解如何分區及叢集資料表,請參閱分區資料表簡介和叢集資料表簡介。
標籤資源
您可以在資料集、資料表和檢視表中加入標籤,協助您整理 BigQuery 資源。標籤是您可以附加至資源的鍵/值組合。為資源加上標籤後,您就可以根據標籤值搜尋資源。舉例來說,您可以新增 dept:sales
、dept:marketing
或 dept:analytics
等標籤,依部門將資料集分組。然後使用標籤,依部門細分帳單費用。
詳情請參閱「標籤簡介」。
取得資源資訊
您可以查詢 INFORMATION_SCHEMA
檢視區塊,取得 BigQuery 資源的相關資訊。BigQuery 會為每個資源類型提供檢視區塊。舉例來說,INFORMATION_SCHEMA.TABLES
檢視畫面包含資料表相關資訊。
以下列舉幾個可透過查詢 INFORMATION_SCHEMA
檢視畫面取得的資訊:
- 查看資料表的建立時間。
- 取得資料表中每個資料欄的名稱和資料類型。
- 找出專案中執行的所有工作。
- 取得從基礎資料表建立的資料表快照清單。
- 針對資料集、資料表、檢視區塊或常式,取得可用於建立資源的 DDL 陳述式。
- 取得用於建立資料表的選項 (例如資料表到期時間)。
- 找出資料表的分區和叢集資料欄。
- 取得專案的指派預留項目及其運算單元容量。
詳情請參閱 BigQuery 簡介。INFORMATION_SCHEMA
複製資料
您可能基於各種原因需要建立資料副本,例如避免人為錯誤,或是保留資料以供日後比較。BigQuery 提供多種選項,可從特定時間點複製資料表資料。
時間回溯。您可能需要存取過去一週內某個時間點的資料表狀態,例如資料因人為錯誤而損毀。BigQuery 會將資料表的歷史資料保留七天。您可以使用時空旅行功能,存取資料表的近期歷來資料。
詳情請參閱「使用時間旅行功能存取歷史資料」。
資料表快照。 如要存取資料表在過去一週前的狀態,請考慮定期建立資料表快照。資料表快照是輕量型的唯讀副本,可無限期保留資料表狀態。舉例來說,您可以使用資料表快照比較資料表目前的資料與年初的資料,但這無法透過時間旅行功能達成。您只需支付基本資料表與資料表快照之間差異資料的儲存費用。
詳情請參閱資料表快照簡介。
資料表本機副本。 如要建立資料表的輕量型可寫入副本,可以使用資料表副本。您只需支付基本資料表與資料表副本之間差異資料的儲存空間費用。舉例來說,您可以在測試環境中建立資料表副本,以便使用正式環境資料副本進行實驗,不會影響正式環境資料,也不必為完整副本的儲存空間付費。
詳情請參閱資料表副本簡介。
追蹤資料歷程
資料歷程是 Dataplex Universal Catalog 的功能,可讓您追蹤資料在系統中的移動方式,包括資料來源、傳遞至何處,以及套用的轉換。如要進一步瞭解資料歷程如何協助您追蹤專案中的資料移動情形,請參閱 Dataplex Universal Catalog 的「關於資料歷程」。
安全資源
BigQuery 安全防護機制以Google Cloud 身分與存取權管理為基礎。BigQuery 可讓您在多個層級控管資源存取權,包括機構、資料夾、專案、資料集、資料表、資料表資料欄和資料表資料列的存取權。
如要瞭解如何控管 BigQuery 資源的存取權,請參閱「資料安全與治理總覽」。
管理工作負載
BigQuery 會代表使用者執行許多工作,包括擷取、查詢及匯出資料。每項工作都是由 BigQuery 工作完成。本節說明如何監控及管理貴機構的工作。
管理工作機會
「工作」是指 BigQuery 代表使用者執行的動作,包括載入、匯出、查詢或複製資料。使用者透過 Google Cloud 主控台、bq 指令列工具、SQL 陳述式或 API 呼叫啟動其中一項工作時,BigQuery 會自動建立工作來執行該工作。
BigQuery 管理員可以監控、管理及排解機構作業的問題,確保作業順利執行。
詳情請參閱「管理工作」。
管理保留項目
BigQuery 執行查詢時,會使用稱為「運算單元」的運算單位。BigQuery 會根據查詢的大小和複雜度,計算執行每個查詢所需的運算單元數量。
BigQuery 提供兩種計費模式,可針對執行查詢的運算單元收費:
- 以量計價。您的查詢會使用共用的運算單元集區,系統會根據查詢處理的位元組數向您收費。如要進一步瞭解隨選計費限制,請參閱「查詢作業」。
- 根據容量計費:您可以為版本指派預訂或容量承諾,每個版本都有自己的功能組合和價格,可為您提供最佳工作環境。
這些計費模式適用於每個專案,因此您可以讓部分專案採用以量計價,部分專案採用以容量計費。
採用以量計價模式時,每月免費用量用完後,系統會根據各項查詢處理的位元組數向您收費。總處理量會受到預先定義的運算單元配額限制,且專案中執行的查詢會共用配額。
採用 BigQuery 版本計費時,您可以透過自動調度預留項目,以及選用但較便宜的容量承諾,為機構分配運算單元。每個版本的價格和功能都不相同。如要進一步瞭解 BigQuery 版本和相關功能,請參閱「BigQuery 版本簡介」。
如要進一步瞭解如何管理運算容量來處理查詢,請參閱下列文件:
如要瞭解配額,以及隨選計費和以容量為準計費之間的取捨,請參閱「預訂簡介」。
如要瞭解以容量為準的計費方式 (月約或年約) 的不同選項,請參閱「使用承諾」。
如要建立以容量為準的運算單元集區 (稱為「運算單元預留」),請參閱「使用運算單元預留功能」。
如要將運算單元預留項目分配給特定專案,請參閱「處理預留項目指派作業」。
如要估算要為工作負載分配的運算單元數量,請參閱「估算運算單元容量需求」。
監控資源
Google Cloud 針對您的資源 (包含 BigQuery 資源) 提供監控與稽核功能。本節說明適用於 BigQuery 的Google Cloud 監控與稽核功能。
詳情請參閱「BigQuery 監控簡介」。
Cloud Monitoring 資訊主頁
Cloud Monitoring 提供資訊主頁,可監控 BigQuery。您可以使用這個資訊主頁查看 BigQuery 事件、資料集、資料表、專案、查詢時間和時段用量等資訊。
詳情請參閱「查看 Monitoring 資訊主頁」。
管理圖表和快訊
您可以根據指定的資源、指標和任何彙整方式,使用 Cloud Monitoring 建立自訂圖表。
詳情請參閱「資訊主頁和圖表」。
您也可以建立快訊政策,在設定的快訊觸發時收到通知。舉例來說,您可以建立快訊,當查詢的執行時間超過指定限制時,系統就會傳送電子郵件到指定電子郵件地址。
詳情請參閱「建立快訊」。
監控保留項目
您可以在Google Cloud 控制台的「容量管理」頁面監控運算單元用量。您可以查看容量承諾,以及運算單元預留位置的指派位置。您也可以使用運算單元估算工具 (搶先版),根據過往成效指標估算貴機構的容量需求。
詳情請參閱「監控 BigQuery 預留項目」。
配額
Google Cloud 會限制資源用量 (包括 BigQuery 資源),確保共用資源的用量合理,並避免您產生過高的費用。您可以使用 Google Cloud 控制台查看有配額的 BigQuery 資源用量,並視需要申請更多配額。
詳情請參閱 BigQuery 配額與限制。
稽核記錄
Cloud 稽核記錄會記錄 Google Cloud 事件,包括 BigQuery 事件。您可以使用記錄檔探索工具,查詢與 BigQuery 工作、資料集、移轉等相關事件的記錄。記錄資訊主頁會顯示近期錯誤的相關資訊,您也可以使用記錄指標,計算符合特定篩選條件的記錄項目數量。
詳情請參閱Google Cloud 記錄說明文件。
最佳化工作負載
您可以調整 BigQuery 設定,控管儲存空間和查詢處理費用。
如需管理 BigQuery 儲存空間費用的協助,請參閱「在 BigQuery 中最佳化儲存空間」。
如需管理 BigQuery 處理費用的協助,請參閱「控管 BigQuery 費用」。
如需最佳化 BigQuery 查詢的協助,請參閱「最佳化查詢效能簡介」。
如要瞭解 BigQuery 費用的一般資訊,請參閱「BigQuery 定價」 和「BigQuery 帳單問題」。
可靠性指引
本文將說明 BigQuery 的可靠性,包括可用性、耐久性、資料一致性、效能一致性,以及 BigQuery 中的資料復原,並回顧錯誤處理考量。如要進一步瞭解可靠性和災害規劃,請參閱「瞭解可靠性」。
疑難排解
除了本文所述的監控和管理貴機構 BigQuery 系統功能外,您也可以參考下列資源,排解可能發生的問題:
如需其他協助,請參閱「取得支援」。
後續步驟
- 如要觀看有關 BigQuery 管理的各種主題影片,請參閱「BigQuery 管理參考指南:回顧」。