在 BigQuery 中產生資料洞察

資料洞察功能會自動探索、解讀及整理資料,Gemini 會根據表格中繼資料,生成自然語言問題和 SQL 查詢,藉此提供資料洞察資訊。這些洞察資訊可協助您發掘模式、評估資料品質,以及執行統計分析。

您也可以使用資料洞察,根據資料表的中繼資料 (預覽) 產生資料表和資料欄說明。這項功能可協助您記錄資料以進行有意義的分析,並提升資料集的可探索性。

本頁說明資料洞察的主要功能,以及如何自動產生查詢,以探索有價值的資料。

事前準備

資料洞察資訊是使用 Gemini in BigQuery 生成。 如要開始生成洞察,請先設定 Gemini in BigQuery

必要的角色

如要建立、管理及擷取資料洞察,請要求管理員授予下列 IAM 角色:

  • 您要產生洞察資料的專案必須具備 Dataplex DataScan 編輯者 (roles/dataplex.dataScanEditor) 或 Dataplex DataScan 管理員 (roles/dataplex.dataScanAdmin) 角色。

  • 在要產生洞察資料的 BigQuery 資料表上,按一下 BigQuery 資料檢視者 (roles/bigquery.dataViewer)。

  • BigQuery 資料編輯者 (roles/bigquery.dataEditor) 在要產生洞察的 BigQuery 資料表上。

  • 在要產生洞察資料的專案中,您必須是「BigQuery 使用者」(roles/bigquery.user) 或「BigQuery Studio 使用者」(roles/bigquery.studioUser)。

如要取得所產生洞察資料的唯讀權限,請要求管理員授予下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」一文。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。如要查看產生洞察資料所需的確切權限,請展開「必要權限」部分:

所需權限

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

啟用 API

如要使用資料洞察,請在專案中啟用下列 API:

如要進一步瞭解如何啟用 Gemini for Google Cloud API,請參閱「在專案中啟用 Gemini for Google Cloud API」。 Google Cloud

關於資料洞察

探索不熟悉的新資料表時,資料分析師經常會遇到冷啟動問題。問題通常與資料結構、重要模式和資料中的相關洞察有關,因此難以開始編寫查詢。

資料洞察功能會根據資料表的 metadata,自動生成自然語言查詢及其對應的 SQL,解決冷啟動問題。您不必從空白的查詢編輯器開始,而是可以快速開始探索資料,並執行有意義的查詢,取得有價值的洞察資料。如要進一步調查,可以在資料畫布中提出後續問題。

洞察資料執行範例

假設有一個名為 telco_churn 的資料表,其中繼資料如下:

欄位名稱 類型
CustomerID STRING
性別 STRING
年資 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合約 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

以下是資料洞察功能為這個表格產生的一些查詢範例:

  • 找出訂閱所有進階服務,且成為顧客超過 50 個月的使用者。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 找出流失最多顧客的網際網路服務。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 找出高價值顧客的區隔流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

改善產生的洞察資料的最佳做法

如要提高生成洞察資料的準確度,請遵循下列最佳做法:

根據資料剖析結果深入分析

在生成式 AI 領域,建立基準是指將模型輸出內容連結至可驗證的資訊來源。您可以根據資料剖析結果,生成洞察資訊。資料剖析會分析 BigQuery 資料表中的資料欄,找出常見的統計特徵,例如一般資料值和資料分布。為資料表建立資料剖析掃描作業時,您可以選擇將掃描結果發布至 Google Cloud 控制台的 BigQuery 和 Dataplex Universal Catalog 頁面。BigQuery 會使用資料剖析結果,透過下列方式建立更準確的相關查詢:

  1. 分析資料剖析結果,找出資料中值得關注的模式、趨勢或離群值。
  2. 生成著重於這些模式、趨勢或離群值的查詢,以發掘洞察資料。
  3. 根據資料剖析結果驗證產生的查詢,確保查詢會傳回有意義的結果。

如果沒有資料剖析掃描,會發生下列情況:

  • Gemini 生成的查詢內容可能包含不準確的子句,或產生無意義的結果。
  • Gemini 生成的資料欄說明僅根據資料欄名稱。

確認資料表的資料剖析掃描作業為最新狀態,且結果已發布至 BigQuery。

您可以調整資料剖析設定,增加取樣大小,並篩除列和欄。執行新的資料剖析掃描後,請重新產生洞察資料。

新增資料表說明

詳細說明資料表內容,有助於 Gemini in BigQuery 產生更相關的洞察資料。新增資料表說明後,重新產生洞察資料。

舉例來說,您可能會在 telco_churn 資料表中新增下列說明:「這個資料表會追蹤客戶流失資料,包括訂閱詳細資料、任期和服務用量,以預測客戶流失行為。」

如果儲存 Gemini 生成的資料表說明,Gemini 會使用該說明生成未來的洞察結果。

新增資料欄說明

說明每個資料欄的用途,或一個資料欄與另一個資料欄的關係,有助於提升洞察資料的品質。更新表格中的資料欄說明後,請重新產生洞察資料。

舉例來說,您可能會在 telco_churn 資料表的特定資料欄中新增下列說明:

  • Tenure:「顧客使用服務的月數」。
  • Churn:客戶是否已停止使用服務。TRUE 表示客戶已停止使用該服務,FALSE 表示客戶仍在使用該服務。」

如果儲存 Gemini 生成的資料欄說明,Gemini 就會使用這些說明生成日後的洞察資料。

產生 BigQuery 資料表的洞察資料

如要產生 BigQuery 資料表的洞察資訊,您必須使用 BigQuery Studio 存取 BigQuery 中的資料表項目。

  1. 前往 Google Cloud 控制台的 BigQuery Studio。

    前往 BigQuery Studio

  2. 在「Explorer」窗格中,選取要產生洞察資料的表格。

  3. 按一下「洞察」分頁標籤,如果分頁空白,表示系統尚未產生這個資料表的洞察資料。

  4. 如要觸發洞察管道,請按一下「產生洞察」

    洞察資料需要幾分鐘才會填入。

    如果資料表有已發布的資料剖析結果,系統會使用這些結果產生洞察資訊。否則,系統會根據資料欄名稱和說明產生洞察結果。

  5. 在「洞察」分頁中,查看系統生成的自然語言問題。

  6. 如要查看回答問題的 SQL 查詢,請按一下問題。

  7. 如要在 BigQuery 中開啟查詢,請按一下「複製到查詢」

  8. 如要連續提問,請按照下列步驟操作:

    1. 按一下「繼續提問」。查詢會在新的資料畫布中開啟。

    2. 依序點選「執行」和「查詢這些結果」

    3. 如要提出後續問題,請在「自然語言」提示欄位中輸入提示,或在查詢編輯器中編輯 SQL。

  9. 如要產生一組新的查詢,請按一下「產生洞察資料」,然後再次觸發管道。

為資料表產生洞察後,只要使用者具備 dataplex.datascans.getData 權限並可存取資料表,就能查看這些洞察。

產生 BigQuery 外部資料表的洞察資料

BigQuery 資料洞察功能支援為 BigQuery 外部資料表產生洞察資訊,這些資料表含有 Cloud Storage 中的資料。您和目前專案的 Dataplex Universal Catalog 服務帳戶,必須在含有資料的 Cloud Storage 值區中,具備「Storage 物件檢視者」 (roles/storage.objectViewer) 角色。詳情請參閱將主體新增至值區層級政策

如要為 BigQuery 外部資料表產生洞察資料,請按照本文「為 BigQuery 資料表產生洞察資料」一節中的操作說明進行。

產生 BigLake 資料表的深入分析

如要產生 BigLake 資料表的洞察資料,請按照下列步驟操作:

  1. 在專案中啟用 BigQuery Connection API。

    啟用 BigQuery Connection API

  2. 建立 BigQuery 連線。詳情請參閱「管理連線」。

  3. 將 Storage 物件檢視者 (roles/storage.objectViewer) IAM 角色授予您建立的 BigQuery 連線所對應的服務帳戶。

    您可以從連線詳細資料中擷取服務帳戶 ID。

  4. 如要產生洞察資料,請按照本文件「為 BigQuery 資料表產生洞察資料」一節的說明操作。

生成資料表和資料欄說明

生成資料洞察時,Gemini 會自動生成資料表和資料欄說明。您可以視需要編輯這些說明,然後儲存至表格的中繼資料。Gemini 會使用儲存的說明生成未來的洞察資料。

如要生成資料表和資料欄說明,請按照下列步驟操作:

  1. 請按照本文件相關章節的指示,產生洞察資料:

  2. 在「洞察」分頁中,按一下「查看欄說明」

    系統會顯示 Gemini 生成的資料表和資料欄說明。

  3. 如要編輯及儲存表格說明,請按一下「儲存至詳細資料」。視需要編輯表格說明,然後按一下「儲存」

  4. 如要編輯及儲存欄說明,請按一下「儲存至結構定義」。視需要編輯欄說明,然後按一下「儲存」

定價

如要瞭解這項功能的定價詳情,請參閱 Gemini in BigQuery 定價總覽

配額與限制

如要瞭解這項功能的配額和限制,請參閱「Gemini in BigQuery 配額」。

限制

  • 資料洞察功能適用於 BigQuery 資料表、BigLake 資料表、外部資料表和檢視。
  • 多雲端客戶無法使用其他雲端的資料。
  • 資料洞察不支援 GeoJSON 欄類型。
  • 洞察資料執行作業不保證每次都會顯示查詢。如要提高生成更吸引人查詢的機率,請重新啟動洞察管道。
  • 如果資料表設有資料欄層級存取權控管 (ACL),且使用者權限受到限制,只要您擁有資料表所有資料欄的讀取權,就能產生洞察資料。如要執行產生的查詢,您必須具備充足的權限
  • Gemini 最多可為資料表中的 350 個資料欄生成說明。

位置

您可以在所有 BigQuery 位置使用資料洞察。 Gemini in BigQuery 的服務範圍遍及全球,因此您無法將資料處理作業限制在特定區域。如要進一步瞭解 Gemini in BigQuery 處理資料的位置,請參閱「Gemini 服務位置」。

後續步驟