Dataplex 术语表

Dataplex 通过 集中管理数据和服务。本术语表旨在定义管理系统中使用的术语。

术语表列表

操作

用户可采取行动的问题。例如:

  • 由于用户提供的安全群组不存在,安全政策传播失败。
  • Dataplex 无法访问代管式资源。
  • 发现作业因各种原因(可由用户解决)而失败。这可能是因为用户数据问题,例如数据格式无效、不兼容 跨分区架构,或分区命名不一致等。

操作由 Dataplex 自动生成。如果检测到用户已解决根本问题,Dataplex 会自动清除某些操作。对于其他操作 已由用户标记为已解决

例如,在用户处理发现操作后,他们应调用 Dataplex API 将操作标记为已解决,以便发现系统可以取消暂停并安排立即运行发现。

素材资源

Asset 代表 Cloud Storage 中的单个托管资源(存储桶/数据集) Dataplex。它也是以下各种配置的占位符: 托管资源和子系统(发现、政策管理等) 执行操作

BigQuery

BigQuery 是 Google Cloud 的全代管式 PB 级经济实惠的分析数据仓库,可让您近乎实时地分析大量数据。

借助 BigQuery,您无需设置或管理基础架构,即可专注于使用标准 SQL 寻找有意义的数据洞见,并在按需价格和固定价格方案中使用灵活的价格模式。了解详情

数据

托管资源内的用户数据。例如,存储桶中的 Cloud Storage 对象或数据集中的 BigQuery 表行。对于 Cloud Storage 对象是用户数据的不可变单元。对于 BigQuery 则子表中的行被视为用户数据。

Data Catalog

Data Catalog 是一项可扩缩的全代管式元数据管理服务,可帮助组织在 Google Cloud 中快速发现、管理和理解其所有数据。了解详情

Dataplex 服务账号

表示服务代理,这是一种代表 Dataplex 执行各种操作的服务账号。例如,发现系统和政策管理系统都依赖于服务代理。

针对用户管理的资源和项目的各种 IAM 权限 执行其作业所需的资源。部分权限已自动授予 在项目上激活 Dataplex 时会用到。其他权限(例如,附加其他项目中的存储桶)需要由用户手动授予。

Dataproc Metastore

Dataproc Metastore 是一个全代管式、高可用性、自动扩缩 自动修复,OSS 原生 Metastore 服务,可极大地简化技术 元数据管理。Dataproc Metastore 服务基于 Apache Hive Metastore,并充当企业数据湖的关键组件。了解详情

发现

负责抓取用户数据和提取元数据的子系统。

条目组

条目组包含条目。条目组是一组逻辑相关的条目以及 Identity and Access Management 政策,用于指定可以在条目组中创建、修改和查看条目的用户。

文件集

文件集是用户创建的条目组中的一个条目。文件集已定义 一个或多个文件格式,这些模式指定一个或多个 Cloud Storage 的 文件。文件集条目可用于整理和发现 Cloud Storage 文件,以及向文件添加元数据。

数据湖是一个中央存储库,用于管理 分布在多个云项目中,并存储到 Cloud Storage 和 BigQuery 等存储服务的基础。通过 附加到数据湖的资源称为代管式资源。这些受管理资源中的数据可以是结构化数据,也可以是非结构化数据。

数据湖为数据管理员提供了大规模整理、保护和管理数据的工具,并为数据科学家和数据工程师提供了集成式体验,以便轻松搜索、发现、分析和转换数据及关联的元数据。

日志

用户可使用 Dataplex 提供的 Stackdriver 日志 深入了解数据湖的运行情况、执行调试、设置提醒等。 例如,记录:

  • 需要注意的 Surface 操作
  • 显示元数据更改
  • 显示作业运行摘要
  • 显示发现作业操作(读取文件、写入文件等)

元数据

发现系统从用户数据中提取的信息。例如: Cloud Storage 存储桶名称、BigQuery 数据集属性 子 BigQuery 表的架构等

元数据有两种类型:

  • 技术元数据,例如架构
  • 运营元数据,例如数据统计信息(Cloud Storage 中的总对象数和大小)

指标

指标表示由 Dataplex 作为公共 API 公开的 Stackdriver 指标。 然后,用户可以使用它来设置 Stackdriver 警报,或通过 图表。如需详细了解特定 Dataplex 指标,请参阅 Dataplex Cloud Monitoring

更改的生效时间

更改某些资源配置会启动后台异步 使托管资源的状态与用户 。例如,在数据湖上指定的安全配置必须是 会传播到可能数千个托管资源的 IAM 政策 (存储分区/数据集)。它不会在调用 API 时立即发生。此过程称为传播。

传播状态将反映在 状态字段和错误将通过操作显示。

资源

Dataplex 资源

由 Dataplex 服务定义的 Google Cloud 资源,例如数据湖、数据区域和资产。

子资源

托管资源的子级。例如,Cloud Storage 对象或 BigQuery table/routine/models.子资源政策管理不是直接通过 Dataplex 进行的,但其有效政策会受到从父级继承的政策的影响。

代管资源

可通过 Dataplex 进行管理和发现的 Google Cloud 资源。 目前支持 Cloud Storage 存储分区和 BigQuery 数据集。受管资源可以属于与数据湖不同的项目,但必须属于同一组织。

规范

用户提供规范。例如:

  • 安全规范指定了数据湖/区域/资产的安全配置。
  • 资产的资源规范指定指向托管资源(存储桶/数据集)的指针。
  • 发现规范指定了资产的发现配置。

状态

表示用户所提供规范的状态。例如:

  • 安全状态表示安全政策的传播状态 (例如安全规范)添加到底层存储分区/数据集。
  • 资源状态表示托管资源的状态(正常 / 未找到) / 权限遭拒等)。
  • 发现状态表示发现作业的状态,该状态由发现规范决定。

具有明确定义的架构(列名称和类型)的逻辑表(行和列) 由托管资源中的数据(或其子集)提供支持的服务。例如, 可能由 Cloud Storage 中的一个 Cloud Storage 对象子集提供支持 BigQuery 数据集中的 BigQuery 表。

  • 表作为一种主要概念显示在 Dataproc Metastore、Data Catalog 和 BigQuery(元数据注册)中。如果未启用发现功能或向下游系统发布功能,系统不会向下游显示表。例如,从用户那里发现的表 如果存在以下情况,则 Cloud Storage 中的数据 未启用发布到 BigQuery 的功能。
  • 由发现系统发现。无法由该用户创建。
  • 生成的表名称应简短而有意义 查询。名称包含三个部分,即 [Prefix_]table root path[_Sequence number]

可用区

在数据湖中创建的一个或多个数据资源的逻辑容器。数据区域可用于对组织内的业务部门(例如销售与运营)进行建模。数据区域还可用于对数据历程或使用准备情况进行建模。

原始区域

数据区域,其中包含需要进一步处理才能被视为通常可以使用和分析工作负载的数据。

精选区域

一个数据区域,包含被视为可供更大范围扩展的数据 工作负载和分析工作负载。存储在 Cloud Storage 中的经过整理的结构化数据必须符合某些文件格式(Parquet、Avro 和 ORC),并以与 Hive 兼容的目录布局进行整理。

后续步骤