在 BigQuery 中產生資料洞察
資料洞察功能會自動探索、解讀及整理資料,Gemini 會根據表格中繼資料,生成自然語言問題和 SQL 查詢,藉此提供資料洞察資訊。這些洞察資訊可協助您發掘模式、評估資料品質,以及執行統計分析。
您也可以使用資料洞察,根據資料表的中繼資料 (預覽) 產生資料表和資料欄說明。這項功能可協助您記錄資料以進行有意義的分析,並提升資料集的可探索性。
本頁說明資料洞察的主要功能,以及如何自動產生查詢,以探索有價值的資料。
事前準備
資料洞察資訊是使用 Gemini in BigQuery 生成。 如要開始生成洞察,請先設定 Gemini in BigQuery。
必要的角色
如要建立、管理及擷取資料洞察,請要求管理員授予下列 IAM 角色:
您要產生洞察資料的專案必須具備 Dataplex DataScan 編輯者 (
roles/dataplex.dataScanEditor
) 或 Dataplex DataScan 管理員 (roles/dataplex.dataScanAdmin
) 角色。在要產生洞察資料的 BigQuery 資料表上,按一下 BigQuery 資料檢視者 (
roles/bigquery.dataViewer
)。BigQuery 資料編輯者 (
roles/bigquery.dataEditor
) 在要產生洞察的 BigQuery 資料表上。在要產生洞察資料的專案中,您必須是「BigQuery 使用者」(
roles/bigquery.user
) 或「BigQuery Studio 使用者」(roles/bigquery.studioUser
)。
如要取得所產生洞察資料的唯讀權限,請要求管理員授予下列 IAM 角色:
- Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer
) 在包含要查看洞察資料的 BigQuery 資料表的專案中。
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」一文。
您或許還可透過自訂角色或其他預先定義的角色取得必要權限。如要查看產生洞察資料所需的確切權限,請展開「必要權限」部分:
所需權限
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
啟用 API
如要使用資料洞察,請在專案中啟用下列 API:
如要進一步瞭解如何啟用 Gemini for Google Cloud API,請參閱「在專案中啟用 Gemini for Google Cloud API」。 Google Cloud
關於資料洞察
探索不熟悉的新資料表時,資料分析師經常會遇到冷啟動問題。問題通常與資料結構、重要模式和資料中的相關洞察有關,因此難以開始編寫查詢。
資料洞察功能會根據資料表的 metadata,自動生成自然語言查詢及其對應的 SQL,解決冷啟動問題。您不必從空白的查詢編輯器開始,而是可以快速開始探索資料,並執行有意義的查詢,取得有價值的洞察資料。如要進一步調查,可以在資料畫布中提出後續問題。
洞察資料執行範例
假設有一個名為 telco_churn
的資料表,其中繼資料如下:
欄位名稱 | 類型 |
---|---|
CustomerID | STRING |
性別 | STRING |
年資 | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
合約 | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
以下是資料洞察功能為這個表格產生的一些查詢範例:
找出訂閱所有進階服務,且成為顧客超過 50 個月的使用者。
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
找出流失最多顧客的網際網路服務。
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
找出高價值顧客的區隔流失率。
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
改善產生的洞察資料的最佳做法
如要提高生成洞察資料的準確度,請遵循下列最佳做法:
根據資料剖析結果深入分析
在生成式 AI 領域,建立基準是指將模型輸出內容連結至可驗證的資訊來源。您可以根據資料剖析結果,生成洞察資訊。資料剖析會分析 BigQuery 資料表中的資料欄,找出常見的統計特徵,例如一般資料值和資料分布。為資料表建立資料剖析掃描作業時,您可以選擇將掃描結果發布至 Google Cloud 控制台的 BigQuery 和 Dataplex Universal Catalog 頁面。BigQuery 會使用資料剖析結果,透過下列方式建立更準確的相關查詢:
- 分析資料剖析結果,找出資料中值得關注的模式、趨勢或離群值。
- 生成著重於這些模式、趨勢或離群值的查詢,以發掘洞察資料。
- 根據資料剖析結果驗證產生的查詢,確保查詢會傳回有意義的結果。
如果沒有資料剖析掃描,會發生下列情況:
- Gemini 生成的查詢內容可能包含不準確的子句,或產生無意義的結果。
- Gemini 生成的資料欄說明僅根據資料欄名稱。
確認資料表的資料剖析掃描作業為最新狀態,且結果已發布至 BigQuery。
您可以調整資料剖析設定,增加取樣大小,並篩除列和欄。執行新的資料剖析掃描後,請重新產生洞察資料。
新增資料表說明
詳細說明資料表內容,有助於 Gemini in BigQuery 產生更相關的洞察資料。新增資料表說明後,重新產生洞察資料。
舉例來說,您可能會在 telco_churn
資料表中新增下列說明:「這個資料表會追蹤客戶流失資料,包括訂閱詳細資料、任期和服務用量,以預測客戶流失行為。」
如果儲存 Gemini 生成的資料表說明,Gemini 會使用該說明生成未來的洞察結果。
新增資料欄說明
說明每個資料欄的用途,或一個資料欄與另一個資料欄的關係,有助於提升洞察資料的品質。更新表格中的資料欄說明後,請重新產生洞察資料。
舉例來說,您可能會在 telco_churn
資料表的特定資料欄中新增下列說明:
Tenure
:「顧客使用服務的月數」。Churn
:客戶是否已停止使用服務。TRUE 表示客戶已停止使用該服務,FALSE 表示客戶仍在使用該服務。」
如果儲存 Gemini 生成的資料欄說明,Gemini 就會使用這些說明生成日後的洞察資料。
產生 BigQuery 資料表的洞察資料
如要產生 BigQuery 資料表的洞察資訊,您必須使用 BigQuery Studio 存取 BigQuery 中的資料表項目。
前往 Google Cloud 控制台的 BigQuery Studio。
在「Explorer」窗格中,選取要產生洞察資料的表格。
按一下「洞察」分頁標籤,如果分頁空白,表示系統尚未產生這個資料表的洞察資料。
如要觸發洞察管道,請按一下「產生洞察」。
洞察資料需要幾分鐘才會填入。
如果資料表有已發布的資料剖析結果,系統會使用這些結果產生洞察資訊。否則,系統會根據資料欄名稱和說明產生洞察結果。
在「洞察」分頁中,查看系統生成的自然語言問題。
如要查看回答問題的 SQL 查詢,請按一下問題。
如要在 BigQuery 中開啟查詢,請按一下「複製到查詢」。
如要連續提問,請按照下列步驟操作:
按一下「繼續提問」。查詢會在新的資料畫布中開啟。
依序點選「執行」和「查詢這些結果」。
如要提出後續問題,請在「自然語言」提示欄位中輸入提示,或在查詢編輯器中編輯 SQL。
如要產生一組新的查詢,請按一下「產生洞察資料」,然後再次觸發管道。
為資料表產生洞察後,只要使用者具備 dataplex.datascans.getData
權限並可存取資料表,就能查看這些洞察。
產生 BigQuery 外部資料表的洞察資料
BigQuery 資料洞察功能支援為 BigQuery 外部資料表產生洞察資訊,這些資料表含有 Cloud Storage 中的資料。您和目前專案的 Dataplex Universal Catalog 服務帳戶,必須在含有資料的 Cloud Storage 值區中,具備「Storage 物件檢視者」 (roles/storage.objectViewer
) 角色。詳情請參閱將主體新增至值區層級政策。
如要為 BigQuery 外部資料表產生洞察資料,請按照本文「為 BigQuery 資料表產生洞察資料」一節中的操作說明進行。
產生 BigLake 資料表的深入分析
如要產生 BigLake 資料表的洞察資料,請按照下列步驟操作:
在專案中啟用 BigQuery Connection API。
建立 BigQuery 連線。詳情請參閱「管理連線」。
將 Storage 物件檢視者 (
roles/storage.objectViewer
) IAM 角色授予您建立的 BigQuery 連線所對應的服務帳戶。您可以從連線詳細資料中擷取服務帳戶 ID。
如要產生洞察資料,請按照本文件「為 BigQuery 資料表產生洞察資料」一節的說明操作。
生成資料表和資料欄說明
生成資料洞察時,Gemini 會自動生成資料表和資料欄說明。您可以視需要編輯這些說明,然後儲存至表格的中繼資料。Gemini 會使用儲存的說明生成未來的洞察資料。
如要生成資料表和資料欄說明,請按照下列步驟操作:
請按照本文件相關章節的指示,產生洞察資料:
在「洞察」分頁中,按一下「查看欄說明」。
系統會顯示 Gemini 生成的資料表和資料欄說明。
如要編輯及儲存表格說明,請按一下「儲存至詳細資料」。視需要編輯表格說明,然後按一下「儲存」。
如要編輯及儲存欄說明,請按一下「儲存至結構定義」。視需要編輯欄說明,然後按一下「儲存」。
定價
如要瞭解這項功能的定價詳情,請參閱 Gemini in BigQuery 定價總覽。
配額與限制
如要瞭解這項功能的配額和限制,請參閱「Gemini in BigQuery 配額」。
限制
- 資料洞察功能適用於 BigQuery 資料表、BigLake 資料表、外部資料表和檢視。
- 多雲端客戶無法使用其他雲端的資料。
- 資料洞察不支援
Geo
或JSON
欄類型。 - 洞察資料執行作業不保證每次都會顯示查詢。如要提高生成更吸引人查詢的機率,請重新啟動洞察管道。
- 如果資料表設有資料欄層級存取權控管 (ACL),且使用者權限受到限制,只要您擁有資料表所有資料欄的讀取權,就能產生洞察資料。如要執行產生的查詢,您必須具備充足的權限。
- Gemini 最多可為資料表中的 350 個資料欄生成說明。
位置
您可以在所有 BigQuery 位置使用資料洞察。 Gemini in BigQuery 的服務範圍遍及全球,因此您無法將資料處理作業限制在特定區域。如要進一步瞭解 Gemini in BigQuery 處理資料的位置,請參閱「Gemini 服務位置」。
後續步驟
- 進一步瞭解 Dataplex Universal Catalog 資料剖析功能。
- 瞭解如何在 BigQuery 中透過 Gemini 輔助功能撰寫查詢。
- 進一步瞭解 Gemini in BigQuery。