在 Dataplex 中获取数据洞见

数据分析提供了一种自动方法来探索和理解您的数据。借助数据分析功能,Gemini 会使用元数据生成有关表格和查询的自然语言问题,并回答这些问题。这有助于您发现模式、评估数据质量和执行统计分析。

本文档介绍了数据分析的主要功能以及如何查看这些功能,以便进行深入的数据探索。

准备工作

数据洞见是使用 BigQuery 中的 Gemini 生成的,并且只能在 BigQuery Studio 中生成。首先在 BigQuery 中设置 Gemini,然后在 BigQuery 中生成数据洞见。Gemini 仅在 us-central1 区域处理您的元数据以生成数据分析。如需了解详情,请参阅 Gemini 服务位置。生成数据分析后,您可以在 Dataplex 中查看这些数据分析。

所需的角色

如需获得对生成的数据分析的只读访问权限,请让您的管理员向您授予以下 IAM 角色:

  • 针对您要查看其数据分析的 BigQuery 表所在项目的 Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) 角色。

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。如需查看生成数据分析所需的确切权限,请展开所需权限部分:

所需权限

  • dataplex.datascans.get
  • dataplex.datascans.getData

启用 API

如需使用数据分析,请在项目中启用以下 API:

如需详细了解如何启用 Gemini for Google Cloud API,请参阅在 Google Cloud 项目中启用 Gemini for Google Cloud API

数据分析简介

在探索陌生的新表时,数据分析师通常会面临冷启动问题。该问题通常涉及到数据结构、关键模式和相关数据分析的不确定性,因此很难着手编写查询。

数据分析通过根据表的元数据自动生成自然语言查询及其等效的 SQL 查询来解决冷启动问题。与其从空白查询编辑器开始,不如使用可提供宝贵数据分析的有意义的查询更快地开始数据探索。如需进一步调查,您可以在数据画布中提出后续问题。

数据分析运行示例

假设有一个名为 telco_churn 且具有以下元数据的表:

字段名称 类型
CustomerID STRING
Gender STRING
资历 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合同 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

以下是数据分析为此表生成的一些示例查询:

  • 识别已订阅所有高级服务且成为客户超过 50 个月的客户。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 确定哪个互联网服务的流失客户最多。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 按细分确定高价值客户的流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

查看数据分析

如需查看 BigQuery 表的数据分析,请使用 Dataplex Search 访问 Dataplex 中的表条目。

  1. 在 Google Cloud 控制台中,转到 Dataplex 搜索页面。

    转到“Dataplex 搜索”

  2. 在 Dataplex 中搜索表条目。

  3. 点击数据分析标签页。如果该标签页为空,则表示此表的数据分析尚未生成。您可以在 BigQuery Studio 中生成数据分析

价格

如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览

配额和限制

如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额

限制

  • 数据分析适用于 BigQuery 表、BigLake 表、外部表和视图。
  • 对于多云客户,来自其他云的数据不可用。
  • 数据分析不支持 GeoJSON 列类型。
  • 运行数据分析并不能保证每次都显示查询。为了提高生成更具吸引力的查询的可能性,请在 BigQuery Studio 中重新生成数据分析。

后续步骤