将数据源与 Data Catalog 集成

Data Catalog 可以从多个 Google Cloud 数据源以及许多常用的本地数据源导入元数据并及时更新元数据。

提取元数据后,Data Catalog 将执行以下操作:

  • 使现有元数据可通过搜索发现。如需了解详情,请参阅如何搜索
  • 允许组织成员通过标记使用其他业务元数据来丰富数据。如需了解详情,请参阅标记和标记模板

虽然与 Google Cloud 来源的集成会自动进行,但与组织使用的自定义本地来源集成时,您可以:

准备工作

如果您已经在使用 Data Catalog,则必须已拥有一个启用了 Data Catalog API 的项目。如需详细了解建议将多个项目与 Data Catalog 结合使用的方法,请参阅在多个项目中使用标记模板

如果这是您第一次与 Data Catalog 互动,请执行以下操作:

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 启用 Data Catalog API。

    启用 API

  5. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  6. 确保您的 Google Cloud 项目已启用结算功能

  7. 启用 Data Catalog API。

    启用 API

集成 Google Cloud 数据源

Analytics Hub

当您在 Analytics Hub 中订阅商家信息时,系统会在您的项目中创建一个关联的数据集。Data Catalog 会自动为关联的数据集及其包含的所有表生成元数据条目。如需详细了解关联的数据集和其他 Analytics Hub 功能,请参阅 Analytics Hub 简介

在 Data Catalog 搜索中,关联的数据集显示为标准 BigQuery 数据集,但您可以使用 type=dataset.linked 谓词对其进行过滤。如需了解详情,请参阅搜索数据资产

BigQuery 和 Pub/Sub

如果您的组织已在使用 BigQuery 和 Pub/Sub,您可以根据权限立即搜索这些来源的元数据。如果您无法在搜索结果中看到对应的条目,请在 Identity and Access Management 中查找您和您项目的用户可能需要的 IAM 角色。

敏感数据保护

此外,Data Catalog 还与 Sensitive Data Protection 集成,可让您扫描特定 Google Cloud 资源中的敏感数据,并以标记的形式将结果发送回 Data Catalog。

如需了解详情,请参阅将敏感数据保护扫描结果发送到 Data Catalog

Bigtable

在 Bigtable 中存储数据时,以下 Bigtable 资源的元数据会自动同步到 Data Catalog:

  • 实例
  • 表,包括列族详细信息

如需了解如何使用 Data Catalog 发现和标记数据,请参阅 Bigtable 文档中的使用 Data Catalog 管理数据资产

Spanner(预览版)

在 Spanner 中存储数据时,以下 Spanner 资源的元数据会同步到 Data Catalog:

  • 实例
  • 数据库
  • 采用列架构的表和视图

如需了解如何使用 Data Catalog 发现和标记数据,请参阅使用 Data Catalog 管理数据资产

Dataproc Metastore

如需与 Dataproc Metastore 集成,请为新服务或现有服务启用与 Data Catalog 的同步,如启用 Data Catalog 同步中所述。

Vertex AI

Vertex AI 会将以下资源的元数据同步到 Data Catalog:

集成本地数据源

如需集成本地数据源,您可以使用社区提供的相应 Python 连接器:

  1. 在下表中找到您的数据源。
  2. 打开其 GitHub 代码库。
  3. 按照 readme 文件中的设置说明进行操作。
类别 组件 说明 代码库
RDBMS mysql-connector MySQL 数据源的示例代码。 google-datacatalog-mysql-connector
postgresql-connector PostgreSQL 数据源的示例代码。 google-datacatalog-postgresql-connector
sqlserver-connector SQLServer 数据源的示例代码。 google-datacatalog-sqlserver-connector
redshift-connector Redshift 数据源的示例代码。 google-datacatalog-redshift-connector
oracle-connector Oracle 数据源的示例代码。 google-datacatalog-oracle-connector
teradata-connector Teradata 数据源的示例代码。 google-datacatalog-teradata-connector
vertica-connector Vertica 数据源的示例代码。 google-datacatalog-vertica-connector
greenplum-connector Greenplum 数据源的示例代码。 google-datacatalog-greenplum-connector
rdbmscsv-connector 常规 RDBMS CSV 提取的示例代码。 google-datacatalog-rdbmscsv-connector
saphana-connector Sap Hana 数据源的示例代码。 google-datacatalog-saphana-connector
BI looker-connector Looker 数据源的示例代码。 google-datacatalog-looker-connector
qlik-connector Qlik Sense 数据源的示例代码。 google-datacatalog-qlik-connector
tableau-connector Tableau 数据源的示例代码。 google-datacatalog-tableau-connector
Hive hive-connector Hive 数据源的示例代码。 google-datacatalog-hive-connector
apache-atlas-connector Apache Atlas 数据源的示例代码。 google-datacatalog-apache-atlas-connector

集成不支持的数据源

如果您找不到数据源的连接器,仍可以通过创建条目组和自定义条目来手动集成。为此,您可以:

如需集成来源,请先了解条目和条目组,然后按照为数据源创建自定义 Data Catalog 条目中的说明操作。

后续步骤