Data Catalog 可以从多个 Google Cloud 数据源以及许多常用的本地数据源导入元数据并及时更新元数据。
提取元数据后,Data Catalog 将执行以下操作:
虽然与 Google Cloud 来源的集成会自动进行,但与组织使用的自定义本地来源集成时,您可以:
- 设置并运行由社区提供的相应connectors。
- 或者,利用 Data Catalog API 获取自定义条目。
准备工作
如果您已经在使用 Data Catalog,则必须已拥有一个启用了 Data Catalog API 的项目。如需详细了解建议将多个项目与 Data Catalog 结合使用的方法,请参阅在多个项目中使用标记模板。
如果这是您第一次与 Data Catalog 互动,请执行以下操作:
- 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Data Catalog API。
-
在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目。
-
启用 Data Catalog API。
集成 Google Cloud 数据源
Analytics Hub
当您在 Analytics Hub 中订阅商家信息时,系统会在您的项目中创建一个关联的数据集。Data Catalog 会自动为关联的数据集及其包含的所有表生成元数据条目。如需详细了解关联的数据集和其他 Analytics Hub 功能,请参阅 Analytics Hub 简介。
在 Data Catalog 搜索中,关联的数据集显示为标准 BigQuery 数据集,但您可以使用 type=dataset.linked
谓词对其进行过滤。如需了解详情,请参阅搜索数据资产。
BigQuery 和 Pub/Sub
如果您的组织已在使用 BigQuery 和 Pub/Sub,您可以根据权限立即搜索这些来源的元数据。如果您无法在搜索结果中看到对应的条目,请在 Identity and Access Management 中查找您和您项目的用户可能需要的 IAM 角色。
敏感数据保护
此外,Data Catalog 还与 Sensitive Data Protection 集成,可让您扫描特定 Google Cloud 资源中的敏感数据,并以标记的形式将结果发送回 Data Catalog。
如需了解详情,请参阅将敏感数据保护扫描结果发送到 Data Catalog。
Bigtable
在 Bigtable 中存储数据时,以下 Bigtable 资源的元数据会自动同步到 Data Catalog:
- 实例
- 表,包括列族详细信息
如需了解如何使用 Data Catalog 发现和标记数据,请参阅 Bigtable 文档中的使用 Data Catalog 管理数据资产。
Spanner(预览版)
在 Spanner 中存储数据时,以下 Spanner 资源的元数据会同步到 Data Catalog:
- 实例
- 数据库
- 采用列架构的表和视图
如需了解如何使用 Data Catalog 发现和标记数据,请参阅使用 Data Catalog 管理数据资产。
Dataproc Metastore
如需与 Dataproc Metastore 集成,请为新服务或现有服务启用与 Data Catalog 的同步,如启用 Data Catalog 同步中所述。
Vertex AI
Vertex AI 会将以下资源的元数据同步到 Data Catalog:
集成本地数据源
如需集成本地数据源,您可以使用社区提供的相应 Python 连接器:
- 在下表中找到您的数据源。
- 打开其 GitHub 代码库。
- 按照 readme 文件中的设置说明进行操作。
类别 | 组件 | 说明 | 代码库 |
---|---|---|---|
RDBMS | mysql-connector | MySQL 数据源的示例代码。 | google-datacatalog-mysql-connector |
postgresql-connector | PostgreSQL 数据源的示例代码。 | google-datacatalog-postgresql-connector | |
sqlserver-connector | SQLServer 数据源的示例代码。 | google-datacatalog-sqlserver-connector | |
redshift-connector | Redshift 数据源的示例代码。 | google-datacatalog-redshift-connector | |
oracle-connector | Oracle 数据源的示例代码。 | google-datacatalog-oracle-connector | |
teradata-connector | Teradata 数据源的示例代码。 | google-datacatalog-teradata-connector | |
vertica-connector | Vertica 数据源的示例代码。 | google-datacatalog-vertica-connector | |
greenplum-connector | Greenplum 数据源的示例代码。 | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | 常规 RDBMS CSV 提取的示例代码。 | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Sap Hana 数据源的示例代码。 | google-datacatalog-saphana-connector | |
BI | looker-connector | Looker 数据源的示例代码。 | google-datacatalog-looker-connector |
qlik-connector | Qlik Sense 数据源的示例代码。 | google-datacatalog-qlik-connector | |
tableau-connector | Tableau 数据源的示例代码。 | google-datacatalog-tableau-connector | |
Hive | hive-connector | Hive 数据源的示例代码。 | google-datacatalog-hive-connector |
apache-atlas-connector | Apache Atlas 数据源的示例代码。 | google-datacatalog-apache-atlas-connector |
集成不支持的数据源
如果您找不到数据源的连接器,仍可以通过创建条目组和自定义条目来手动集成。为此,您可以:
- 使用以下某种语言使用 Data Catalog 客户端库:C#、Go、Java、Node.js、PHP、Python 或 Ruby。
- 您也可以在 Data Catalog API 上手动构建。
如需集成来源,请先了解条目和条目组,然后按照为数据源创建自定义 Data Catalog 条目中的说明操作。
后续步骤
- 详细了解 Identity and Access Management。
- 了解如何搜索。
- 浏览标记表快速入门。