Dataplex 术语表

Dataplex 统一管理数据分析的端到端历程,集中管理数据和服务。该术语表希望定义管理系统中使用的术语。

术语表

操作

用户可解决的问题。例如:

  • 如果用户提供的安全群组不存在,安全政策传播失败。
  • Dataplex 无法访问代管式资源。
  • 发现作业因各种原因而失败(可以由用户补救)。这可能是由于用户数据问题造成的,例如数据格式无效、分区之间的架构不兼容或分区命名不一致等。

操作由 Dataplex 自动生成。检测到底层问题已被用户解决时,Dataplex 会自动清除部分操作。其他操作需要明确标记为用户已解决。

例如,在用户完成发现操作后,他们应调用 Dataplex API 将这些操作标记为已解决,以便发现系统可以取消暂停并安排立即执行发现操作。

资产

资源代表 Dataplex 中的单个代管式资源(存储桶/数据集)。它也是受管理资源和作为它的子系统(发现、政策管理等)的各种配置的占位符。

BigQuery

BigQuery 是 Google Cloud 提供的一种经济实惠的全代管式 PB 级分析数据仓库,可让您近乎实时地分析大量数据。

借助 BigQuery,您无需设置或管理基础架构,即可专注于使用标准 SQL 发掘有意义的数据洞见,并在按需价格和固定价格选项中利用灵活的价格模式。了解详情

数据

受管理资源中的用户数据。例如,存储桶中的 Cloud Storage 对象或数据集中的 BigQuery 表行。对于 Cloud Storage,对象是用户数据的不可变单位。对于 BigQuery 数据集,子表中的行会被视为用户数据。

Data Catalog

Data Catalog 是一项可伸缩的全代管式元数据管理服务,可帮助组织在 Google Cloud 中快速发现、管理和理解其所有数据。了解详情

Dataplex 服务帐号

代表代表 Dataplex 执行各种操作的内部代管 Google Cloud 服务帐号。例如,发现系统、政策管理系统等会使用服务帐号凭据。

服务帐号需要对用户管理的资源和项目拥有各种 IAM 权限才能执行其作业。在项目激活 Dataplex 时,系统会自动授予部分授权。其他用户(例如,连接来自其他项目的存储桶)需要由用户手动授予。

Dataproc Metastore

Dataproc Metastore 是一项全代管式高可用性、自动扩缩、自动修复的 OSS 原生 Metastore 服务,大大简化了技术元数据管理。Dataproc Metastore 服务以 Apache Hive Metastore 为基础,用作企业数据湖的重要组件。了解详情

《发现》杂志

负责抓取用户数据和提取元数据的子系统。

条目组

条目组包含条目。条目组是一组逻辑相关的条目以及 Identity and Access Management 政策,用于指定可以在条目组中创建、修改和查看条目的用户。

文件集

文件集是用户创建的条目组中的条目。一个文件集由一个或多个文件格式定义,这些格式指定一个或多个 Cloud Storage 文件集。文件集条目可用于整理和发现 Cloud Storage 文件,以及向其中添加元数据。

数据湖

数据湖是一个集中式存储库,用于管理分布在许多云项目中的组织数据,并存储在各种存储服务(如 Cloud Storage 和 BigQuery)中。附加到数据湖的资源称为代管式资源。这些代管式资源中的数据可以是结构化的,也可以是非结构化的。

数据湖为数据管理员提供了用于大规模整理、保护和管理数据的工具,并为数据科学家和数据工程师提供集成式体验,帮助他们轻松搜索、发现、分析和转换数据及相关元数据。

日志

Dataplex 提供的 Stackdriver 日志,用户可以使用这些日志来深入了解其数据湖的工作原理、执行调试、设置提醒等。例如:

  • 显示需要注意的操作
  • 显示元数据更改
  • 显示作业运行摘要
  • 显示发现作业操作(读取、写入等)

元数据

发现系统从用户数据中提取的信息。例如 Cloud Storage 存储桶名称、BigQuery 数据集属性、子 BigQuery 表的架构等。

元数据有两种类型:

  • 架构等技术元数据
  • 操作元数据,例如数据统计信息(Cloud Storage 中的对象总数和大小)

指标

指标表示由 Dataplex 公开为公共 API 的 Stackdriver 指标,用户随后可以使用这些指标设置 Stackdriver 提醒或通过图表直观呈现。如需详细了解 Dataplex 特定指标,请参阅 Dataplex Cloud Monitoring

更改的生效时间

更改某些资源配置会启动一个后台异步进程,使受管理资源的状态与用户指定的内容保持一致。例如,数据湖中指定的安全配置需要传播到该数据湖下可能包含数千个代管式资源(存储分区/数据集)的 IAM 政策。调用 API 时,不会立即发生这种情况。这个过程称为传播。

传播的状态将反映在相关的状态字段中,错误将通过操作显示。

资源

Dataplex 资源

由 Dataplex 服务定义的 Google Cloud 资源,例如数据湖、数据可用区和资产。

子资源

代管式资源的子项。例如 Cloud Storage 对象或 BigQuery 表/例程/模型。子资源政策管理不是直接通过 Dataplex 进行的,但其有效政策会受到从父项继承的内容的影响。

代管资源

可通过 Dataplex 管理和发现的 Google Cloud 资源。 目前,Cloud Storage 存储分区和 BigQuery 数据集。托管资源可以属于与数据湖不同的项目,但必须属于同一组织。

规范

用户提供规范。例如:

  • 安全规范指定了数据湖/可用区/资产的安全配置。
  • 资产的资源规范指定了指向代管式资源(存储桶/数据集)的指针。
  • 发现规范用于指定资产的发现配置。

状态

表示用户提供的规范的状态。例如:

  • 安全状态表示安全政策(例如安全规范)传播到底层存储分区/数据集的状态。
  • 资源状态表示受管理资源的状态(成功 / 未找到/权限遭拒等),在资源规范中指定。
  • 发现状态表示由发现规范驱动的发现作业的状态。

采用明确架构(列名称和类型)且由代管式资源中的数据(或其子集)提供支持的逻辑表(行和列)。例如,表可以由 Cloud Storage 存储桶中的部分 Cloud Storage 对象或 BigQuery 数据集中的 BigQuery 表提供支持。

  • 作为第一个概念的表格会显示在 Dataproc Metastore、Data Catalog 和 BigQuery(元数据注册)中。 如果未启用下游系统的发现或发布功能,表就不会显示在下游。例如,如果未启用将内容发布到 BigQuery 的功能,则从 Cloud Storage 的用户数据中发现的表将不会出现在 BigQuery 中。
  • 由发现系统发现。用户无法创建。
  • 生成的表名称应简短且有意义,以便用户轻松查询。名称包含三个部分:[Prefix_]table root path[_Sequence number]

可用区

在一个数据湖中创建的一个或多个数据资源的逻辑容器。数据区域可用于对组织内的业务部门进行建模(例如销售与运营)。数据可用区还会为数据历程或准备使用做好准备。

原始区域

一个数据区域包含需要进一步处理的数据,才会被视为可供处理和分析工作负载。

精选区域

一个数据区域,包含被视为更广泛的消耗和分析工作负载的数据。存储在 Cloud Storage 中的精选结构化数据必须符合某些文件格式(Parquet、Avro 和 ORC),并采用与 Hive 兼容的目录布局进行整理。

后续步骤