Dataplex Universal Catalog 概览

Dataplex Universal Catalog 是 Google Cloud中数据和 AI 资产的统一智能治理解决方案。借助 Dataplex Universal Catalog,您可以使用 AI 简化数据查询、质量保证和业务数据洞见。

Dataplex Universal Catalog 可大规模执行治理。例如,假设一家全球零售公司生成大量销售、库存和客户数据,并将其存储在 Cloud Storage、Spanner 和 Pub/Sub 中。由于数据分布在各个系统中,因此管理治理、确保质量和保持合规性非常复杂且耗时。Dataplex Universal Catalog 提供了一个集中视图,可用于发现、分析、验证、跟踪组织数据资产的沿袭以及控制对组织数据资产的访问权限,从而简化了此流程。

为何使用 Dataplex Universal Catalog?

Dataplex Universal Catalog 通过以下功能治理数据:

  • 元数据编目。检索 Google Cloud 资源(在 BigQuery、Cloud SQL、Spanner、Vertex AI、Pub/Sub、Dataform、Dataproc Metastore 中)和您引入 Dataplex Universal Catalog 的第三方资源的元数据,以便获取数据资产的快照。
  • 数据发现。扫描 Cloud Storage 存储桶中的结构化数据和非结构化数据,以提取元数据和编制元数据目录。
  • 数据分析洞见、使用 AI 生成有关数据的自然语言问题,以发现模式、评估数据质量和执行统计分析。
  • 数据分析。识别 BigQuery 表中列数据的常见特征,例如典型数据值、数据分布和空值计数,这些特征可用于数据分类和质量保证。
  • 数据质量。通过根据组织政策验证数据并在数据不符合质量标准时记录提醒,定义和衡量 BigQuery 表中数据的质量。
  • 业务术语库。管理贵组织中与业务相关的术语和定义,并将术语附加到表格列,以促进对数据使用情况的一致理解。
  • 数据沿袭。跟踪数据在系统中的移动方式:数据来自何处、传递到何处以及对其应用了哪些转换。

Dataplex Universal Catalog 支持端到端数据生命周期,从分布式发现到业务数据洞见。您还可以通过 BigQuery 使用治理功能。

使用场景

您可以使用 Dataplex Universal Catalog 执行以下操作:

  • 发现和了解数据。Dataplex Universal Catalog 可让您了解组织中的数据资源。它可让您找到满足数据使用需求的资源。Dataplex Universal Catalog 可为数据资源提供上下文,帮助您了解数据资源是否适合数据使用方的需求。

  • 启用数据治理和数据管理。Dataplex Universal Catalog 提供元数据,可为数据治理和数据管理功能提供信息和支持。

  • 维护可扩展且全面的元数据仓库。Dataplex Universal Catalog 会存储从 Google Cloud 资源自动收集的元数据并提供其访问权限。您可以集成来自非Google Cloud 系统的自有元数据。您可以使用其他业务和技术元数据注解来丰富所有元数据。

开始使用

如果您是首次使用 Dataplex Universal Catalog,请考虑以下快速入门:

后续步骤