Dataplex 术语表

Dataplex 通过集中管理数据和服务,统一了端到端的分析历程。该术语表旨在定义管理系统中使用的术语。

术语表列表

操作

用户可解决的问题。例如:

  • 由于用户提供的安全组不存在,安全政策传播失败。
  • Dataplex 无法访问代管式资源。
  • 发现作业因各种原因而失败(可由用户补救)。这可能是由于用户数据问题(例如数据格式无效、各分区之间的架构不兼容或分区命名不一致)造成的。

操作由 Dataplex 自动生成。当检测到底层问题已由用户解决时,Dataplex 会自动清除部分操作。其他操作需要明确标记为已由用户解决。

例如,在用户处理好发现操作后,他们应调用 Dataplex API 来将操作标记为已解决,以便发现系统可以取消暂停并安排立即执行发现运行。

资产

Asset 代表 Dataplex 中的单个托管资源(存储桶/数据集)。它也是托管资源和对其执行操作的子系统(发现、政策管理等)的各种配置的占位符。

BigQuery

BigQuery 是 Google Cloud 的全代管式 PB 级经济实惠的分析数据仓库,可让您近乎实时地对大量数据运行分析。

借助 BigQuery,您无需设置或管理任何基础架构,因此您可以专注于使用标准 SQL 查找有意义的数据洞见,并在按需和固定费率方案中充分利用灵活的价格模式。了解详情

数据

托管资源内的用户数据。例如,存储桶中的 Cloud Storage 对象或数据集中的 BigQuery 表行。在 Cloud Storage 中,对象是用户数据的不可变单元。对于 BigQuery 数据集,子表中的行被视为用户数据。

Data Catalog

Data Catalog 是一项可伸缩的全代管式元数据管理服务,可帮助组织在 Google Cloud 中快速发现、管理和理解其所有数据。了解详情

Dataplex 服务账号

代表服务代理,这是一种代表 Dataplex 执行各种操作的服务帐号类型。例如,发现系统和政策管理系统依赖于服务代理。

服务代理需要对用户管理的资源和项目拥有各种 IAM 权限才能执行其作业。在为项目激活 Dataplex 时,系统会自动授予部分角色。其他权限(例如,从其他项目关联存储桶)需要由用户手动授予。

Dataproc Metastore

Dataproc Metastore 是一项全代管式、高可用性、自动扩缩、自动修复的 OSS 原生 Metastore 服务,可极大地简化技术元数据管理。Dataproc Metastore 服务基于 Apache Hive Metastore,用作企业数据湖的关键组件。了解详情

发现

负责抓取用户数据和提取元数据的子系统。

条目组

条目组包含条目。条目组是一组逻辑相关的条目以及 Identity and Access Management 政策,用于指定可以在条目组中创建、修改和查看条目的用户。

文件集

文件集是用户创建的条目组中的一个条目。文件集由一个或多个文件格式定义,这些模式指定一个或多个 Cloud Storage 文件集。文件集条目可用于整理和发现 Cloud Storage 文件,以及向其添加元数据。

数据湖

数据湖是一个集中式存储库,用于管理整个组织中分布在多个云项目中并存储在各种存储服务(如 Cloud Storage 和 BigQuery)中的企业数据。附加到数据湖的资源称为托管资源。这些托管资源中的数据可以是结构化数据,也可以是非结构化数据。

数据湖为数据管理员提供了用于大规模整理、保护和管理其数据的工具,并为数据科学家和数据工程师提供集成体验,以轻松搜索、发现、分析和转换数据及相关元数据。

日志

由 Dataplex 提供的 Stackdriver 日志,用户可使用这些日志深入了解数据湖的运行情况、执行调试、设置提醒等。例如,具有以下特征的日志:

  • 显示需要注意的操作
  • Surface 元数据变更
  • 显示作业运行情况摘要
  • Surface 发现作业操作(文件读取、写入等)

元数据

发现系统从用户数据中提取的信息。例如,Cloud Storage 存储桶名称、BigQuery 数据集属性、BigQuery 子表的架构等。

元数据有两种类型:

  • 技术元数据,例如架构
  • 操作元数据,例如数据统计信息(Cloud Storage 中的对象总数和大小)

指标

指标表示由 Dataplex 作为公共 API 公开的 Stackdriver 指标,用户可使用这些指标设置 Stackdriver 提醒或通过图表进行可视化。如需详细了解特定 Dataplex 指标,请参阅 Dataplex Cloud Monitoring

更改的生效时间

更改某些资源配置会启动后台异步进程,以协调托管资源的状态与用户指定的状态。例如,在数据湖上指定的安全配置需要传播到该数据湖下可能数千个代管式资源(存储分区/数据集)的 IAM 政策。它不会在调用 API 时立即发生。此过程称为传播。

传播的状态将通过相关状态字段反映,错误将通过操作显示。

资源

Dataplex 资源

由 Dataplex 服务定义的 Google Cloud 资源,例如数据湖、数据区域和资产。

子资源

托管资源的子级。例如,Cloud Storage 对象或 BigQuery 表/例程/模型。子资源政策管理并非直接通过 Dataplex 进行,但其有效政策确实会受到从父项继承的内容的影响。

代管式资源

可通过 Dataplex 进行管理和发现的 Google Cloud 资源。目前支持 Cloud Storage 存储分区和 BigQuery 数据集。代管资源可以属于与数据湖不同的项目,但必须属于同一组织。

规范

用户提供规范。例如:

  • 安全规范指定了数据湖/可用区/资产的安全配置。
  • 资产的资源规范指定指向托管资源(存储桶/数据集)的指针。
  • 发现规范指定了资产的发现配置。

状态

表示用户所提供规范的状态。例如:

  • 安全状态表示安全政策(例如安全规范)传播到底层存储分区/数据集的状态。
  • 资源状态表示资源规范中指定的托管资源的状态(正常 / 未找到/权限遭拒等)。
  • 发现状态表示发现作业的状态,该状态由发现规范驱动。

具有明确定义的架构(列名称和类型)的逻辑表(行和列),该架构由托管资源中的数据(或其子集)提供支持。例如,表可能基于 Cloud Storage 存储桶中的部分 Cloud Storage 对象或 BigQuery 数据集中的 BigQuery 表的子集。

  • Dataproc Metastore、Data Catalog 和 BigQuery(元数据注册)提供了表作为第一类概念。如果未启用发现或发布到下游系统,表不会在下游显示。例如,如果未启用“发布到 BigQuery”功能,则通过 Cloud Storage 中的用户数据发现的表将不会显示在 BigQuery 中。
  • 由发现系统发现。无法由该用户创建。
  • 生成的表名称应简短而有意义,以便于查询。名称包含三个部分,即 [Prefix_]table root path[_Sequence number]

可用区

在数据湖中创建的一个或多个数据资源的逻辑容器。数据区域可用于为组织内的业务部门(例如销售与运营)建模。数据区域还会对数据历程或数据使用准备情况进行建模。

原始区域

一个数据区域,其中包含的数据需要进一步处理,然后才能通常被视为可供使用和分析工作负载。

精选区域

一个数据区域,其中包含被视为已准备好用于更广泛的使用和分析工作负载的数据。存储在 Cloud Storage 中的精选结构化数据必须符合某些文件格式(Parquet、Avro 和 ORC),并以与 Hive 兼容的目录布局进行整理。

后续步骤