将数据源与 Data Catalog 集成

Data Catalog 可以从多个 Google Cloud 数据源以及许多热门的本地数据源中提取和更新最新的元数据。

提取元数据后,Data Catalog 将执行以下操作:

  • 使现有元数据可通过搜索发现。如需了解详情,请参阅如何搜索
  • 允许组织成员通过标记使用其他业务元数据来丰富数据。如需了解详情,请参阅标记和标记模板

虽然与 Google Cloud 来源的集成会自动进行,但与组织使用的自定义本地来源集成时,您可以:

准备工作

如果您已经在使用 Data Catalog,则必须已拥有一个启用了 Data Catalog API 的项目。如需详细了解建议将多个项目与 Data Catalog 结合使用的方法,请参阅在多个项目中使用标记模板

如果这是您第一次与 Data Catalog 互动,请执行以下操作:

  1. 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 启用 Data Catalog API。

    启用 API

集成 Google Cloud 数据源

BigQuery 和 Pub/Sub

如果您的组织已在使用 BigQuery 和 Pub/Sub,您可以根据权限立即搜索这些来源的元数据。如果您无法在搜索结果中看到对应的条目,请在 Identity and Access Management 中查找您和您项目的用户可能需要的 IAM 角色。

Dataproc Metastore(预览版)

如需与 Dataproc Metastore 集成,请为新服务或现有服务启用与 Data Catalog 的同步,如启用 Data Catalog 同步中所述。

Cloud Data Loss Prevention (Cloud DLP)

此外,Data Catalog 还集成了 Cloud Data Loss Prevention,可让您扫描特定 Google Cloud 资源中的敏感数据,并以标记的形式将结果发送回 Data Catalog。

如需了解详情,请参阅将 Cloud DLP 扫描结果发送到 Data Catalog

集成本地数据源

如需集成本地数据源,您可以使用社区提供的相应 Python 连接器:

  1. 在下表中找到您的数据源。
  2. 打开其 GitHub 代码库。
  3. 按照 readme 文件中的设置说明进行操作。

类别 组件 说明 代码库
RDBMS mysql-connector MySQL 数据源的示例代码。 google-datacatalog-mysql-connector
postgresql-connector PostgreSQL 数据源的示例代码。 google-datacatalog-postgresql-connector
sqlserver-connector SQLServer 数据源的示例代码。 google-datacatalog-sqlserver-connector
redshift-connector Redshift 数据源的示例代码。 google-datacatalog-redshift-connector
oracle-connector Oracle 数据源的示例代码。 google-datacatalog-oracle-connector
teradata-connector Teradata 数据源的示例代码。 google-datacatalog-teradata-connector
vertica-connector Vertica 数据源的示例代码。 google-datacatalog-vertica-connector
greenplum-connector Greenplum 数据源的示例代码。 google-datacatalog-greenplum-connector
rdbmscsv-connector 常规 RDBMS CSV 提取的示例代码。 google-datacatalog-rdbmscsv-connector
saphana-connector Sap Hana 数据源的示例代码。 google-datacatalog-saphana-connector
BI looker-connector Looker 数据源的示例代码。 google-datacatalog-looker-connector
qlik-connector Qlik Sense 数据源的示例代码。 google-datacatalog-qlik-connector
tableau-connector Tableau 数据源的示例代码。 google-datacatalog-tableau-connector
Hive hive-connector Hive 数据源的示例代码。 google-datacatalog-hive-connector
apache-atlas-connector Apache Atlas 数据源的示例代码。 google-datacatalog-apache-atlas-connector

集成不支持的数据源

如果您找不到数据源的连接器,仍可以通过创建条目组和自定义条目来手动集成。为此,您可以:

如需集成来源,请先了解条目和条目组,然后按照为数据源创建自定义 Data Catalog 条目中的说明操作。

后续步骤