在 Dataplex 中访问数据洞见

数据分析提供了一种自动方法来探索和理解您的数据。使用 Gemini 来生成查询 基于表的元数据,并帮助您发现规律、评估数据, 并进行统计分析

本文档介绍了数据分析的主要功能以及如何查看这些功能 进行深入分析。

准备工作

数据洞见是使用 BigQuery 中的 Gemini 并且只能在 BigQuery Studio 中生成。 第一页 在 BigQuery 中设置 Gemini, 然后 在 BigQuery 中生成数据分析。 生成数据分析后,您可以在 Dataplex 中查看这些数据分析。

所需的角色

如需获得对生成的数据分析的只读访问权限,请让您的管理员向您授予以下 IAM 角色:

  • 针对您要查看其数据分析的 BigQuery 表所在项目的 Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer) 角色。

您也可以通过自定义角色或其他预定义角色来获取所需的权限。如需查看生成数据分析所需的确切权限,请展开所需权限部分:

所需权限

  • dataplex.datascans.get
  • dataplex.datascans.getData

启用 API

如需使用数据分析,请在项目中启用以下 API:

如需详细了解如何启用 Gemini for Google Cloud API,请参阅 在 Google Cloud 项目中启用 Gemini for Google Cloud API

数据分析简介

在探索陌生的新表时,数据分析师通常会面临冷启动问题。该问题通常涉及到数据结构、关键模式和相关数据分析的不确定性,因此很难着手编写查询。数据分析通过根据表的元数据自动生成自然语言和 SQL 查询来解决冷启动问题。无需从 您可以使用空查询编辑器快速开始数据探索 提供宝贵数据洞见的有意义的查询。 使用数据分析生成的查询基于已发布的数据 分析扫描数据来改进 准确性和实用性

数据分析运行示例

假设有一个名为 telco_churn 且具有以下元数据的表:

字段名称 类型
CustomerID STRING
Gender STRING
资历 INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
合同 STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

以下是数据分析为此表生成的一些示例查询:

  • 识别已订阅所有高级服务且成为客户超过 50 个月的客户。

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • 确定哪个互联网服务的流失客户最多。

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • 按细分确定高价值客户的流失率。

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

使用分析扫描为数据分析建立依据简介

当您 创建数据分析扫描 您可以选择将扫描结果发布到 BigQuery, Dataplex Catalog。BigQuery 使用已发布的分析扫描数据生成有关该表的更准确、更相关的查询。

分析扫描数据提供了有关数据分布的信息, 数据类型以及数据集的统计摘要。 数据分析使用分析扫描数据,基于数据集中的实际数据分布和模式创建查询。此过程包括以下步骤:

  • 分析分析扫描数据,以识别数据中有趣的模式、趋势或离群值
  • 生成重点关注这些模式、趋势或离群值的查询以发掘数据洞见
  • 针对分析扫描数据验证生成的查询,以确保查询返回有意义的结果

如果没有可用的扫描,系统会根据列名称和说明生成数据分析。

有关提升数据分析效果的提示

以事实为依据的查询可确保生成的数据分析基于数据中的实际趋势和实际值。如需使用分析扫描数据充分利用以事实为依据的查询,请遵循以下提示:

  • 确保您的表具有最新的已发布分析扫描数据。
  • 查看生成的查询,了解它们是如何以 分析扫描数据。
  • 调整分析扫描设置,以扩大采样规模和过滤器 行和列。
  • 为表及其各列添加说明。更准确、更详细的说明有助于生成更高质量的数据洞见。
  • 更新配置文件扫描或说明后,请重新生成 在 BigQuery Studio 中查看表的数据分析。

查看数据分析

如需查看某个 BigQuery 表的数据分析,请访问 在 Dataplex 中使用 Dataplex Search 创建表条目。

  1. 在 Google Cloud 控制台中,转到 Dataplex 搜索页面。

    转到“Dataplex 搜索”

  2. 在 Dataplex 中搜索表条目。

  3. 点击数据分析标签页。如果该标签页为空,则表示数据分析 尚未生成此表。您可以在 BigQuery Studio 中生成数据分析

价格

如需详细了解此功能的价格,请参阅 Gemini in BigQuery 价格概览

配额和限制

如需了解此功能的配额和限制,请参阅 Gemini in BigQuery 的配额

限制

  • 数据分析适用于 BigQuery 表、BigLake 表、外部表和视图。
  • 对于多云客户,来自其他云的数据不可用。
  • 数据分析不支持 GeoJSON 列类型。
  • 运行数据分析并不能保证每次都显示查询。接收者 增加生成更有吸引力的查询的可能性, 数据分析。

后续步骤