BigQuery 資料準備功能簡介
本文說明 BigQuery 的 AI 輔助資料準備功能。資料準備作業是 BigQuery 資源,可使用 Gemini in BigQuery 分析資料,並提供智慧型建議,協助您清理、轉換及補充資料。大幅減少手動準備資料所需的時間和工作量。資料準備作業的排程是由 Dataform 支援。
優點
- 透過 Gemini 生成的內容感知轉換建議,您可以縮短資料管道的開發時間。
- 您可以在預覽畫面中驗證產生的結果,並透過自動結構定義對應功能,取得資料品質清理和強化建議。
- Dataform 可讓您使用持續整合、持續開發 (CI/CD) 程序,支援跨團隊合作進行程式碼審查和原始碼控管。
資料準備進入點
您可以在 BigQuery Studio 頁面中建立及管理資料準備作業 (請參閱「在 BigQuery 中開啟資料準備編輯器」)。
在 BigQuery 資料準備中開啟資料表時,系統會使用您的憑證執行 BigQuery 工作。執行作業會從所選資料表建立範例資料列,並將結果寫入同一專案中的臨時資料表。Gemini 會使用範例資料和結構定義,生成資料準備建議,並顯示在資料準備編輯器中。
資料準備編輯器中的檢視畫面
資料準備作業會顯示在「BigQuery」BigQuery頁面的分頁中。每個分頁都有一系列子分頁或資料準備「檢視畫面」,您可以在其中設計及管理資料準備作業。
資料檢視
建立新的資料準備作業時,系統會開啟資料準備編輯器分頁,顯示包含資料表代表性樣本的資料檢視畫面。如要查看現有資料準備作業的資料,請在資料準備管道的圖表檢視畫面中,點選節點。
資料檢視畫面可讓您執行下列操作:
- 與資料互動,形成資料準備步驟。
- 套用 Gemini 的建議。
- 在儲存格中輸入範例值,提升 Gemini 建議的品質。
表格中的每個資料欄上方都會顯示統計資料剖析 (直方圖),當中會列出預覽列中每個資料欄的前幾名值。
圖表檢視
圖表檢視畫面會以視覺化方式呈現資料準備作業總覽。開啟資料準備作業時,這個頁面會顯示為控制台「BigQuery」BigQuery頁面上的分頁標籤。圖表會顯示資料準備管道中所有步驟的節點。您可以選取圖表上的節點,設定該節點代表的資料準備步驟。
結構定義檢視畫面
資料準備結構定義檢視畫面會顯示目前有效資料準備步驟的結構定義。顯示的結構定義與資料檢視中的資料欄相符。
在結構定義檢視畫面中,您可以執行專屬的結構定義作業,例如移除資料欄,這也會在「已套用的步驟」清單中建立步驟。
Gemini 提供的建議
Gemini 會根據情境提供建議,協助您完成下列資料準備工作:
- 套用轉換和資料品質規則
- 標準化及豐富資料
- 自動建立結構定義對應
每個建議都會顯示在資料準備編輯器的建議清單中。這張資訊卡包含下列資訊:
- 步驟的高階類別,例如「保留資料列」或「轉換」
- 步驟說明,例如「如果
COLUMN_NAME
不是NULL
,則保留資料列」 - 用於執行步驟的對應 SQL 運算式
你可以預覽、編輯或套用建議資訊卡,也可以微調建議。你也可以手動新增步驟。詳情請參閱「使用 Gemini 準備資料」。
如要微調 Gemini 提供的建議,請提供資料欄的變更範例。
資料取樣
BigQuery 會使用資料取樣功能,預覽資料準備作業。您可以在每個節點的資料檢視畫面中查看樣本。
新增 BigQuery 標準資料表做為來源時,系統會使用 BigQuery TABLESAMPLE
函式準備資料。這個函式會建立 1 萬筆記錄的範例。
當您新增檢視區塊或外部資料表做為來源時,系統會讀取前 100 萬筆記錄。系統會從這些記錄中選取代表性的 1 萬筆記錄樣本。
系統不會自動重新整理範例中的資料。範例資料表會儲存為快取的查詢結果,並在約 24 小時後過期。如要手動重新整理範例資料表,請參閱「重新整理資料準備範例」。
寫入模式
如要盡量節省費用和處理時間,可以變更寫入模式設定,從來源逐步處理新資料。舉例來說,如果您在 BigQuery 中有一個資料表,每天都會插入記錄,而 Looker 資訊主頁必須反映變更的資料,您可以排定 BigQuery 資料準備作業,從來源資料表遞增讀取新記錄,並將這些記錄傳播至目的地資料表。
如要設定資料準備作業寫入目的地資料表的方式,請參閱「透過漸進式處理資料來最佳化資料準備作業」。
系統支援下列寫入模式:
寫入模式選項 | 說明 |
---|---|
完整重新整理 | 對所有來源資料執行資料準備步驟,然後完整重建目的地資料表。系統會重新建立資料表,而不是截斷資料表。寫入目的地資料表時,預設模式為完整重新整理。 |
附加 | 將資料準備作業中的所有資料插入目的地資料表,做為額外資料列。 |
增量 | 只將有異動或新的資料插入目的地資料表 (視您選擇的增量資料欄而定)。資料準備作業會根據您選擇的增量資料欄,選取最佳的變更記錄偵測機制。系統會為數值和日期時間資料類型選取最大值,並為類別資料選取唯一值。如果指定資料欄的值大於目的地資料表中相同資料欄的最大值,系統只會插入記錄。如果目的地資料表中相同資料欄的現有值,沒有指定資料欄值,系統只會插入記錄。 |
支援的資料準備步驟
BigQuery 支援下列類型的資料準備步驟:
步驟類型 | 說明 |
---|---|
來源 | 選取要讀取的 BigQuery 資料表或新增聯結步驟時,系統會新增來源。 |
轉換 | 使用 SQL 運算式清理及轉換資料。系統會針對下列運算式顯示建議資訊卡:
您也可以在手動轉換步驟中使用任何有效的 BigQuery SQL 運算式。例如:
詳情請參閱「新增轉換」。 |
篩選器 | 透過 WHERE 子句語法移除資料列。新增篩選器步驟時,您可以選擇將其設為驗證步驟。詳情請參閱「篩選資料列」。 |
驗證 | 將不符合驗證規則條件的資料列傳送至錯誤表格。如果資料不符合驗證規則,且未設定錯誤表格,資料準備作業就會在執行期間失敗。 詳情請參閱「設定錯誤資料表並新增驗證規則」。 |
加入 | 彙整兩個來源的值。資料表必須位於相同位置。
聯結鍵欄必須是相同的資料類型。資料準備作業支援下列彙整作業:
詳情請參閱「新增彙整作業」。 |
目的地 | 定義輸出資料準備步驟的目的地。如果輸入不存在的目的地資料表,資料準備作業會以目前的結構定義資訊建立新的資料表。 詳情請參閱「新增或變更目的地資料表」。 |
刪除欄 | 從結構定義中刪除資料欄。您可以在結構定義檢視畫面中執行這個步驟。 詳情請參閱「刪除資料欄」。 |
排定資料準備作業
如要執行資料準備步驟,並將準備好的資料載入目的地資料表,請建立排程。您可以在資料準備編輯器中排定資料準備作業,並在 BigQuery 的「排程」頁面中管理這些作業。詳情請參閱「安排資料準備作業」。
使用資料準備工作建立管道
您可以建構由資料準備、SQL 查詢和筆記本工作組成的 BigQuery pipeline。然後按照排程執行這些管道。詳情請參閱 BigQuery 管道簡介。
控管存取權
使用身分與存取權管理 (IAM) 角色、透過 BigQuery 和 Dataform Cloud KMS 金鑰加密,以及 VPC Service Controls,控管資料準備作業的存取權。
IAM 角色和權限
準備資料的使用者和執行工作的 Dataform 服務帳戶都需要 IAM 權限。詳情請參閱「必要角色」和「設定 Gemini for BigQuery」。
使用 Cloud KMS 金鑰加密
在資料集或專案層級,使用 BigQuery 中預設的客戶管理 Cloud KMS 金鑰加密資料。詳情請參閱「設定資料集預設金鑰」和「設定專案預設金鑰」。
您可以預設使用 Dataform Cloud KMS 金鑰,在專案層級加密管道程式碼。
VPC Service Controls 範圍
如果您使用 VPC Service Controls,必須設定範圍來保護 Dataform 和 BigQuery。詳情請參閱 BigQuery 和 Dataform 的 VPC Service Controls 限制。
限制
資料準備功能有下列限制:
- 特定資料準備作業的所有 BigQuery 資料準備來源和目的地資料集,都必須位於相同位置。詳情請參閱「位置」。
- 編輯管道時,系統會將資料和互動內容傳送至 Gemini 資料中心進行處理。詳情請參閱「位置」。
- Gemini in BigQuery 不支援 Assured Workloads。
- BigQuery 資料準備作業不支援查看、比較或還原資料準備版本。
- Gemini 的回覆內容會根據您設計資料準備管道時提供的資料集樣本生成。詳情請參閱「Gemini for Google Cloud 如何使用您的資料」一文,以及「Gemini for Google Cloud 『信任的測試人員』計畫」的條款。
- BigQuery 資料準備功能沒有專屬的 API,如需必要 API,請參閱「設定 Gemini 版 BigQuery」。
位置
您可以在任何支援的 BigQuery 地理位置使用資料準備功能。資料處理工作會在來源資料集的位置執行及儲存。如果指定存放區位置,則必須與來源資料集位置相同。資料準備程式碼儲存區域可能與工作執行區域不同。
BigQuery Studio 中的所有程式碼資產都使用相同的預設區域。如要設定程式碼資產的預設區域,請按照下列步驟操作:
前往「BigQuery」頁面
在「Explorer」窗格中,找出已啟用程式碼資產的專案。
按一下專案旁的
「查看動作」,然後按一下「變更預設程式碼區域」。「區域」請選取要用於程式碼資產的區域。
按一下 [選取]。
如需可用區域清單,請參閱 BigQuery Studio 位置。
Gemini in BigQuery 的運作範圍遍及全球,因此設計資料準備作業時,您無法將 Gemini 的資料處理作業限制在特定區域。不過,設計和執行期間的 BigQuery 資料處理作業,一律會在來源資料集的位置進行。如要進一步瞭解 Gemini in BigQuery 處理資料的位置,請參閱「Gemini 服務位置」。
定價
執行資料準備作業和建立資料預覽範例時,會使用 BigQuery 資源,並按照 BigQuery 定價頁面顯示的費率計費。
資料準備功能已納入 Gemini in BigQuery 定價。在預先發布期間,您可以使用 BigQuery 資料準備功能,無需支付額外費用。詳情請參閱「設定 Gemini in BigQuery」一文。
配額
詳情請參閱 Gemini in BigQuery 的配額。
後續步驟
- 瞭解如何透過 Gemini 版 BigQuery 準備資料。
- 瞭解如何手動或排程執行資料準備作業。