Dataplex 的 Data Catalog 功能是中央目录 组织的数据资产。Data Catalog 自动 从 BigQuery、Google Cloud 等 Google Cloud 来源 Vertex AI、Pub/Sub、Spanner、Bigtable 等等。Data Catalog 还会通过发现功能为 Cloud Storage 中的表和文件集元数据编制索引。
您可以使用 Dataplex 的受控组织范围发现数据 元数据搜索功能。您可以使用关键的业务情境进一步丰富元数据,并启用谱系跟踪、数据分析、数据质量检查和访问控制功能。
借助 Data Catalog,组织可以更好地发现数据、管理元数据和实现治理。
为什么需要 Data Catalog?
如今,大多数组织需要处理海量并且还在不断增长的数据资产。
组织内的数据相关方(使用者、提供者和管理员)面临着多重挑战:
搜索可提供洞见的数据:
- 数据使用者不知道数据的位置和来源。他们必须 浏览数据“沼泽”。
- 数据使用者不知道应该使用哪些数据来获取数据洞见,因为大多数数据没有完备的记录,即使有记录,也没有得到妥善维护。
- 无法找到数据,如果数据仅留存在人脑中,通常意味着数据丢失。
了解数据:
- 数据是否新鲜、干净、经过验证并且获准用于生产环境?
- 在多个重复集中,哪个数据集具有相关性且是最新的?
- 数据集之间是什么关系?
- 谁在使用数据?谁是数据的所有者?
- 谁以及哪些进程在转换数据?
使数据有用:
数据提供者缺乏向使用者提供数据的高效方法。如果没有自助服务,使用者可能会使提供者不堪重负。区区几个数据工程师无法手动向数以千计的数据分析师提供数据。
如果数据使用者必须了解如何请求获取数据,则会浪费宝贵的时间 数据访问、在未指定响应时间的情况下等待、上报并再次等待。
如果没有合适的工具,挑战就会成为主要障碍 对数据的使用。Data Catalog 提供了一个集中式的 可帮助组织实现以下目标的存储库:
- 获得统一视图,减少搜索正确数据的麻烦。
- 通过使用技术和业务元数据丰富数据,支持数据驱动型决策,并缩短数据分析时间。
- 改善数据管理,从而提高运营效率和工作效率。
- 掌握数据的所有权,从而增强对数据的信心。
Data Catalog 功能
Data Catalog 提供三项主要功能:
- 搜索您有权访问的数据条目
- 使用元数据标记数据条目
- 提供列级别安全性 对于 BigQuery 表
此外,Data Catalog 还可以利用 Sensitive Data Protection 扫描的结果,以标记模板的形式直接在 Data Catalog 中识别敏感数据。
Data Catalog 的工作原理
Data Catalog 可以为来自不同 Google Cloud 系统的资产元数据编制目录。
您还可以使用 Data Catalog API 与自定义数据源集成。
数据分类后,您可以使用标签将自己的元数据添加到这些资源中。
Data Catalog 元数据
Data Catalog 可处理两种类型的元数据:技术元数据和业务元数据。如需详细了解元数据,请参阅 Data Catalog 元数据。
搜索和发现
Data Catalog 提供基于谓词的强大搜索 拥有与数据条目相关的技术元数据和业务元数据的经验。您必须有权读取数据条目的元数据,才能对元数据应用搜索和发现功能。Data Catalog 不 为数据条目中的数据编制索引。Data Catalog 仅将用于描述资源的元数据编入索引。
Data Catalog 可控制某些元数据,例如用户生成的标记。 对于源自底层存储系统的所有元数据, Data Catalog 是一项只读服务,反映的是 由底层存储系统提供的权限和权限。您可以在底层存储系统中进行修改,以添加、更新或删除数据条目的元数据。
如需详细了解 Data Catalog 搜索,请参阅 使用 Data Catalog 搜索数据资产。
自动对资产进行编目
对于给定项目,Data Catalog 会自动为以下 Google Cloud 资产编制目录:
- 与 Analytics Hub 关联的数据集
- BigQuery 数据集、表、模型、日常安排和连接
- Bigtable 实例、集群和表(包括列族详细信息)
- Dataplex 数据湖、区域、表和文件集
- Dataproc Metastore 服务、数据库和表
- Pub/Sub 主题
- Spanner 实例、数据库、表和视图
除了可以为您有权访问其元数据的项目 ID 中的资源编制目录之外,Data Catalog 还可以为存储在 BigQuery 项目(包含公共数据集)中的数据编制目录。
编制非 Google Cloud 资产目录
如需对组织中非 Google Cloud 系统中的元数据进行编目,您可以使用 以下:
- 社区提供的连接器(适用于多个热门的本地数据源)
- 手动构建适用于自定义条目的 Data Catalog API
访问 Data Catalog
您可以使用以下方式访问 Data Catalog 功能:
Google Cloud 控制台中的 Dataplex
gcloud
命令行界面 (CLI)
后续步骤
如需开始使用 Data Catalog 标记,请参阅创建标记模板、标记、概览和数据管家。
如需开始使用 Data Catalog 搜索和发现功能,请参阅使用 Data Catalog 搜索和查看数据资产。
如需集成数据源,请按照集成 Google Cloud 和本地数据源中的步骤操作。