Data Catalog 可以从 多种 Google Cloud 数据源,以及许多热门 本地虚拟机
提取元数据后,Data Catalog 将执行以下操作:
虽然与 Google Cloud 来源的集成是自动进行的, 与贵组织使用的自定义本地来源集成, 请执行以下任一操作:
- 设置并运行由社区提供的相应连接器。
- 使用 Data Catalog API 获取自定义条目。
准备工作
如果您已经在使用 Data Catalog,则必须已拥有一个启用了 Data Catalog API 的项目。如需详细了解建议将多个项目与 Data Catalog 结合使用的方法,请参阅在多个项目中使用标记模板。
如果这是您第一次与 Data Catalog 互动,请执行以下操作:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
集成 Google Cloud 数据源
Analytics Hub
在 Analytics Hub 中订阅列表后,系统会在您的项目中创建一个关联的数据集。Data Catalog 会自动为关联的数据集及其包含的所有表生成元数据条目。如需详细了解关联的数据集和其他 Analytics Hub 功能,请参阅 Analytics Hub 简介。
在 Data Catalog 搜索中,关联的数据集显示为
标准 BigQuery 数据集,但您可以使用
type=dataset.linked
谓词。如需了解更多详情,
请参阅搜索数据资产。
BigQuery 和 Pub/Sub
如果您的组织已在使用 BigQuery 和 Pub/Sub,您可以根据权限立即搜索这些来源的元数据。如果您无法在搜索结果中看到对应的条目,请在 Identity and Access Management 中查找您和您项目的用户可能需要的 IAM 角色。
Bigtable
当您在 Bigtable 中存储数据时,以下 Bigtable 资源的元数据会自动同步到 Data Catalog:
- 实例
- 表,包括列族详细信息
有关使用 Data Catalog 进行数据发现和 请参阅使用 Data Catalog Bigtable 文档。
Cloud SQL
Cloud SQL 不与 Data Catalog 集成,但与 Dataplex Catalog 集成。如需了解详情,请参阅 将数据源与 Dataplex Catalog 集成。
Dataproc Metastore
如需与 Dataproc Metastore 集成,请为新服务或现有服务启用与 Data Catalog 的同步,如启用 Data Catalog 同步中所述。
敏感数据保护
此外,Data Catalog 还集成了敏感数据保护,可让您扫描特定 Google Cloud 资源中的敏感数据,并以标记的形式将结果发送回 Data Catalog。
如需了解详情,请参阅将敏感数据保护扫描结果发送到 Data Catalog。
Spanner
将数据存储在 Spanner 中时,以下 Spanner 的元数据 资源会同步到 Data Catalog:
- 实例
- 数据库
- 包含列架构的表和视图
如需有关使用 Data Catalog 进行数据发现和标记的指南,请参阅使用 Data Catalog 管理数据资产。
Vertex AI
Vertex AI 会将以下资源的元数据同步到 Data Catalog:
集成本地数据源
如需集成本地数据源,您可以使用社区提供的相应 Python 连接器:
- 在下表中找到您的数据源。
- 打开其 GitHub 代码库。
- 按照 readme 文件中的设置说明进行操作。
类别 | 组件 | 说明 | 代码库 |
---|---|---|---|
RDBMS | mysql-connector | MySQL 数据源的示例代码。 | google-datacatalog-mysql-connector |
postgresql-connector | PostgreSQL 数据源的示例代码。 | google-datacatalog-postgresql-connector | |
sqlserver-connector | SQLServer 数据源的示例代码。 | google-datacatalog-sqlserver-connector | |
redshift-connector | Redshift 数据源的示例代码。 | google-datacatalog-redshift-connector | |
oracle-connector | Oracle 数据源的示例代码。 | google-datacatalog-oracle-connector | |
teradata-connector | Teradata 数据源的示例代码。 | google-datacatalog-teradata-connector | |
vertica-connector | Vertica 数据源的示例代码。 | google-datacatalog-vertica-connector | |
greenplum-connector | Greenplum 数据源的示例代码。 | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | 常规 RDBMS CSV 提取的示例代码。 | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Sap Hana 数据源的示例代码。 | google-datacatalog-saphana-connector | |
BI | looker-connector | Looker 数据源的示例代码。 | google-datacatalog-looker-connector |
qlik-connector | Qlik Sense 数据源的示例代码。 | google-datacatalog-qlik-connector | |
tableau-connector | Tableau 数据源的示例代码。 | google-datacatalog-tableau-connector | |
Hive | hive-connector | Hive 数据源的示例代码。 | google-datacatalog-hive-connector |
apache-atlas-connector | Apache Atlas 数据源的示例代码。 | google-datacatalog-apache-atlas-connector |
集成不支持的数据源
如果您找不到数据源的连接器,仍可以通过创建条目组和自定义条目来手动集成。为此,您可以:
- 使用以下某种语言使用 Data Catalog 客户端库:C#、Go、Java、Node.js、PHP、Python 或 Ruby。
- 或在 Data Catalog API。
如需集成来源,请先了解条目和条目组,然后按照为数据源创建自定义 Data Catalog 条目中的说明操作。
后续步骤
- 详细了解 Identity and Access Management。
- 了解如何搜索。
- 浏览标记表快速入门。