- Analytics Hub 关联的数据集
- BigQuery 数据集、表、视图和模型
- Bigtable 实例、集群和表(包括列族详细信息)
- Data Catalog 标记模板、条目组和自定义条目
- Dataplex 数据湖、区域、表和文件集
- Dataproc Metastore 服务、数据库和表
- Pub/Sub 数据流
- Spanner 实例、数据库、表和视图
- Vertex AI 模型、数据集和 Vertex AI Feature Store 资源
- 连接到 Data Catalog 的企业数据孤岛中的资产
搜索范围
根据您的权限,您可能会获得不同的搜索结果。 Data Catalog 搜索结果的范围取决于您的角色。
您可以查看 Data Catalog 可用的不同类型的 IAM 角色和权限。
例如,如果您对某个对象的 BigQuery 元数据拥有读取权限,则该对象会显示在您的 Data Catalog 搜索结果中。以下列表介绍了所需的最低权限:
如需搜索表,您需要拥有该表的
bigquery.tables.get
权限。如需搜索数据集,您需要拥有该数据集的
bigquery.datasets.get
权限。如需搜索数据集或表的元数据,您需要拥有
roles/bigquery.metadataViewer
角色。如需搜索项目或组织内的所有资源,您需要拥有
datacatalog.catalogs.searchAll
权限。它适用于独立于源系统的所有资源。
如果您有权访问 BigQuery 表,但无权访问该表所属的数据集,则表仍会按预期方式显示在 Data Catalog 搜索中。相同的访问逻辑适用于所有受支持的系统,例如 Pub/Sub 和 Data Catalog 本身。
搜索中的召回率问题
Data Catalog 搜索查询并不能保证完全召回。系统可能不会返回与您的查询匹配的结果,即使在后续的结果页中也是如此。此外,如果您重复执行搜索查询,返回(和未返回)的结果可能会有所不同。
如果您遇到召回率问题,并且不必按任何特定顺序提取结果,请考虑在调用 catalog.search 方法时将 orderBy
参数设置为 default
。
使用 admin_search
标志
在搜索请求上使用 admin_search
标志可确保完全调用。管理员搜索要求对搜索范围内的所有项目和组织设置 datacatalog.catalogs.searchAll
权限。使用 admin_search
时,仅允许使用 default
orderBy
。
日期分片表
Data Catalog 将日期分片表聚合为单个逻辑条目。此条目的架构与具有最新日期的表分片相同,并包含分片总数的聚合信息。条目的访问权限级来自其所属的数据集。仅当用户有权访问包含这些逻辑条目的数据集时,Data Catalog 搜索才会显示这些逻辑条目。单独的日期分片表在 Data Catalog 搜索中不可见,即使它们存在于 Data Catalog 中并且可以标记也是如此。
过滤条件
借助过滤条件,您可以缩小搜索结果的范围。所有过滤条件分组为各个部分:
- 范围:将搜索范围限制为已加星标的项。
- 系统,如 BigQuery、Pub/Sub、Dataplex、Dataproc Metastore、自定义系统、Vertex AI 和 Data Catalog 本身。Data Catalog 系统包含文件集和自定义条目。
- 数据湖和可用区来自 Dataplex。
- 数据类型,例如数据流、数据集、数据湖、区域、文件集、模型、表、视图、服务、数据库和自定义类型。
- 项目,列出您可以使用的所有项目。
- 代码中列出了您可以使用的所有代码模板(及其各个字段)。
- 数据集来自 BigQuery 和 Vertex AI。
- 公共数据集是 BigQuery 中的公开数据。
您可以组合多个部分中的过滤条件,以查找符合每个选定部分中至少一个条件的素材资源。使用“OR”逻辑运算符对单个部分中选择的多个过滤条件进行求值。例如,假设存在以下过滤条件组合:
![已选中多个部分的标记值过滤条件面板。](https://cloud.google.com/static/data-catalog/images/multiple-filter-sections.png?authuser=7&hl=zh-cn)
Data Catalog 会查找以下内容:
带有 MyTemplate1 模板标记的 BigQuery 数据集。
带有 MyTemplate2 模板标记的 BigQuery 数据集。
带有 MyTemplate1 模板标记的 BigQuery 表。
带有 MyTemplate2 模板标记的 BigQuery 表。
按标记值过滤
借助代码过滤条件,您可以查询使用特定模板标记的资产。您可以使用
自定义菜单进一步优化结果并按特定的标记值进行过滤。标记值过滤条件取决于该标记字段的数据类型。例如,对于日期时间和数字字段,您可以指定特定日期或范围。过滤条件显示设置
每个部分中显示的过滤条件取决于搜索框中的当前查询。 整组搜索结果可能包含与当前查询匹配的条目,但与这些条目对应的过滤条件可能不会在过滤条件面板中显示。
如何搜索数据资产
控制台
控制台
如需在 Google Cloud 控制台中启动 Dataplex 搜索查询,请前往 Dataplex 搜索页面。
在搜索字段中输入您的查询,或使用过滤条件面板优化搜索参数。
您可以手动添加以下过滤条件:
- 在项目中,添加项目过滤条件,方法是点击添加项目按钮,搜索特定项目,选择该项目,然后点击打开。
- 在代码中,点击添加更多标记模板下拉菜单,搜索并选中特定模板,然后点击确定,使用标记模板进行过滤。
此外,您可以:
- 勾选包括公共数据集可以搜索 Google Cloud 中公开提供的数据资产以及您可以使用的资产。
搜索示例
例如,要搜索您在配置标记模板、标记、概览和数据管理员中设置的 trips
表,请执行以下操作:
- 在搜索字段中输入
trips
,然后点击搜索。 - 从系统部分中选择 BigQuery,以排除属于其他系统且名称相同的数据资源。
- 从项目部分中选择您的项目 ID,以排除其他项目中的数据资产。如果您的项目未显示在该部分中,请点击添加项目,然后在对话框窗口中选择该项目。
- 从代码模板部分选择演示代码模板,查看使用此模板的代码是否已附加到
trips
表。如果该模板未显示在该部分中,请点击添加更多标记下拉列表,找到并选择该模板,然后点击确定。
选择所有过滤条件后,搜索结果将仅包含一个条目,即项目中的 BigQuery trips
表,该表附加了使用 Demo Tag Template
的标记。
![](https://cloud.google.com/static/data-catalog/images/search-filter-for-trips.png?authuser=7&hl=zh-cn)
此外,您还可以执行以下操作:
在搜索字段中为搜索字词添加 keyword:value 来过滤搜索:
关键字 说明 name:
匹配数据资源名称 column:
匹配列名称或嵌套列名称 description:
匹配表的说明 在搜索字段中为您的搜索字词添加以下标记关键字前缀,以执行标记搜索:
标记 说明 tag:project-name.tag_template_name
匹配标记名称 tag:project-name.tag_template_name.key
匹配标记键 tag:project-name.tag_template_name.key:value
匹配标记 key:string value
对
搜索表达式提示
如果搜索表达式包含空格,请将其用英文引号引起来 ("
search terms
")。您可以在关键字前面加上“NOT”(需全部大写),以匹配
keyword:term
过滤条件的逻辑否定。您还可以使用“AND”和“OR”(需全部大写)布尔运算符来组合搜索表达式。例如:
NOT column:term
会列出除与指定字词匹配的列之外的所有列。如需查看可在 Data Catalog 搜索表达式中使用的关键字和其他字词的列表,请参阅 Data Catalog 搜索语法。
Java
在试用此示例之前,请按照《Data Catalog 快速入门:使用客户端库》中的 Java 设置说明进行操作。如需了解详情,请参阅 Data Catalog Java API 参考文档。
如需向 Data Catalog 进行身份验证,请设置应用默认凭据。如需了解详情,请参阅为本地开发环境设置身份验证。
Node.js
在试用此示例之前,请按照《Data Catalog 快速入门:使用客户端库》中的 Node.js 设置说明进行操作。如需了解详情,请参阅 Data Catalog Node.js API 参考文档。
如需向 Data Catalog 进行身份验证,请设置应用默认凭据。如需了解详情,请参阅为本地开发环境设置身份验证。
Python
在试用此示例之前,请按照《Data Catalog 快速入门:使用客户端库》中的 Python 设置说明进行操作。如需了解详情,请参阅 Data Catalog Python API 参考文档。
如需向 Data Catalog 进行身份验证,请设置应用默认凭据。如需了解详情,请参阅为本地开发环境设置身份验证。
REST 和命令行
REST
如果您无法使用针对您的语言的 Cloud 客户端库或者您想要使用 REST 请求来测试 API,请参阅以下示例并参阅 Data Catalog REST API 文档。
1. 搜索目录
在使用任何请求数据之前,请先进行以下替换:
- organization-id:GCP 组织 ID
- project-id:GCP 项目 ID
HTTP 方法和网址:
POST https://datacatalog.googleapis.com/v1/catalog:search
请求 JSON 正文:
{ "query":"trips", "scope":{ "includeOrgIds":[ "organization-id" ] } }
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
{ "results":[ { "searchResultType":"ENTRY", "searchResultSubtype":"entry.table", "relativeResourceName":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry1-id", "linkedResource":"//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/taxi_trips" }, { "searchResultType":"ENTRY", "searchResultSubtype":"entry.table", "relativeResourceName":"projects/project-id/locations/US/entryGroups/@bigquery/entries/entry2-id", "linkedResource":"//bigquery.googleapis.com/projects/project-id/datasets/demo_dataset/tables/tlc_yellow_trips_2018" } ] }
查看表详细信息
在 Cloud 控制台中,您可以使用 Data Catalog 查看表的详细信息。
转到 Dataplex 搜索页面。
在搜索框中,输入包含表的数据集的名称。
例如,如果您已完成快速入门,则可以搜索
demo-dataset
并选择trips
表。点击表。
此时会打开 BigQuery 表详情页面。
表的详细信息包括以下部分:
BigQuery 表详情。包括创建时间、最后修改时间、到期时间、资源网址、标签等信息。
标记。列出已应用的代码。您可以在此页面中修改代码并查看代码模板。点击
操作图标。架构和列标记。列出已应用的架构及其值。
为您喜爱的条目加星标并搜索它们
如果您经常浏览相同的数据资产,可以使用星号标记它们,在个性化列表中添加它们的条目。如需在 Dataplex 界面中执行此操作,请执行以下操作:
转到 Dataplex 搜索页面并找到您的资产。
通过以下两种方式之一为其条目加星标:
- 点击搜索结果中条目旁边的 图标。
- 点击条目名称以打开其详情页面,然后点击顶部操作栏上的 加星标按钮。
您最多可以为 200 个条目加星标。
在搜索栏中输入搜索查询之前,加星标的条目会显示在搜索页面上的加星标的条目列表中。此列表仅对您可见。
如需仅搜索加星标的条目,请在过滤条件面板上选择范围 > 加星标选项。
您还可以使用 Data Catalog API 的相应方法为条目加注星标和移除星标。搜索资产时,请在 scope
对象中使用 starredOnly
参数。请参阅 catalog.search 方法。