Dataplex 术语表

Dataplex 通过 集中管理数据和服务。本词汇表旨在 管理体系

术语表列表

操作

用户可解决的问题。例如:

  • 由于安全组不存在,安全政策传播失败 由用户提供
  • Dataplex 无法访问代管式资源。
  • 发现作业因各种原因而失败(可由用户补救)。 这可能是因为用户数据问题,例如数据格式无效、不兼容 跨分区架构,或分区命名不一致等。

操作由 Dataplex 自动生成。部分操作 出现此问题时,Dataplex 会自动清除 系统检测到该问题已被用户解决对于其他操作 已由用户标记为已解决

例如,在执行发现操作后 他们应调用 Dataplex API 来标记 以便发现系统可以取消暂停并安排 立即发现运行。

素材资源

Asset 代表 Dataplex。它也是以下各种配置的占位符: 托管资源和子系统(发现、政策管理等) 执行操作

BigQuery

BigQuery 是 Google Cloud 的全代管式 PB 级数据服务, 经济实惠的分析数据仓库,可让您对大量数据进行分析, 以近乎实时的方式处理大量数据。

BigQuery 没有 设置或管理基础架构,让您专注于找到有意义的 使用标准 SQL 获取数据洞见并利用灵活的价格模式 两种付费选项。了解详情

数据

托管资源内的用户数据。例如,Cloud Storage 中的 数据集中的存储桶或 BigQuery 表行。对于 Cloud Storage 对象是用户数据的不可变单元。对于 BigQuery 则子表中的行被视为用户数据。

Data Catalog

Data Catalog 是一项可伸缩的全代管式元数据管理服务 可让组织快速发现、管理和了解 在 Google Cloud 中存储所有数据了解详情

Dataplex 服务账号

代表服务代理、 代表代表执行各种操作的服务账号的类型 Dataplex。例如,发现系统和政策 都依赖于服务代理。

针对用户管理的资源和项目的各种 IAM 权限 执行其作业所需的资源。部分权限已自动授予 在项目上激活 Dataplex 时会用到。其他(例如, 需要由管理员手动授予 用户。

Dataproc Metastore

Dataproc Metastore 是一个全代管式、高可用性、自动扩缩 自动修复,OSS 原生 Metastore 服务,可极大地简化技术 元数据管理。Dataproc Metastore 服务基于 Apache Hive Metastore,是构建大型企业 数据湖。了解详情

发现

负责抓取用户数据和提取元数据的子系统。

条目组

条目组包含条目。条目组是一组逻辑相关的条目以及 Identity and Access Management 政策,用于指定可以在条目组中创建、修改和查看条目的用户。

文件集

文件集是用户创建的条目组中的一个条目。文件集已定义 一个或多个文件格式,这些模式指定一个或多个 Cloud Storage 的集合, 文件。文件集条目可用于整理和发现 Cloud Storage 文件, 以及向其添加元数据

数据湖是一个中央存储库,用于管理 分布在多个云项目中,并存储到 Cloud Storage 和 BigQuery 等存储服务的基础。通过 附加到数据湖的资源称为代管式资源。这些类别中的数据 托管资源可以是结构化的,也可以是非结构化的。

数据湖为数据管理员提供了整理、保护和管理其数据的工具 为数据科学家和数据工程师提供集成式 轻松搜索、发现、分析和转换数据, 关联的元数据。

日志

用户可使用 Dataplex 提供的 Stackdriver 日志 深入了解数据湖的运行情况、执行调试、设置提醒等。 例如,记录:

  • 显示需要注意的操作
  • Surface 元数据变更
  • 显示作业运行情况摘要
  • Surface 发现作业操作(文件读取、写入等)

元数据

发现系统从用户数据中提取的信息。例如: Cloud Storage 存储桶名称、BigQuery 数据集属性 子 BigQuery 表的架构等

元数据有两种类型:

  • 技术元数据,例如架构
  • 操作元数据,例如数据统计信息(Cloud Storage 中的对象总数和大小)

指标

指标表示由 Dataplex 作为公共 API 公开的 Stackdriver 指标。 然后,用户可以使用它来设置 Stackdriver 警报,或通过 图表。请参阅 Dataplex Cloud Monitoring 详细了解特定 Dataplex 指标。

更改的生效时间

更改某些资源配置会启动后台异步 使托管资源的状态与用户 。例如,在数据湖上指定的安全配置必须是 传播到可能数千个托管资源的 IAM 政策 存储分区/数据集。使用 API 时 。此过程称为传播。

传播状态将反映在 状态字段和错误将通过操作显示。

资源

Dataplex 资源

由 Dataplex 服务定义的 Google Cloud 资源,例如数据湖、 数据区域和资产。

子资源

托管资源的子级。例如,Cloud Storage 对象或 BigQuery 表/例程/模型。子资源政策的管理不直接进行 但其有效政策确实会受到 从父级继承的内容

代管式资源

可通过 Dataplex 进行管理和发现的 Google Cloud 资源。 目前支持 Cloud Storage 存储分区和 BigQuery 数据集。答 代管资源可以属于与数据湖不同的项目,但 必须属于同一组织。

规范

用户提供规范。例如:

  • 安全规范指定了数据湖/可用区/资产的安全配置。
  • 资产的资源规范指定指向托管资源(存储桶/数据集)的指针。
  • 发现规范指定了资产的发现配置。

状态

表示用户所提供规范的状态。例如:

  • 安全状态表示安全政策的传播状态 (例如安全规范)添加到底层存储分区/数据集。
  • 资源状态表示托管资源的状态(正常 / 未找到) / 权限遭拒等)。
  • 发现状态表示发现作业的状态,该作业由 按发现规范分类

具有明确定义的架构(列名称和类型)的逻辑表(行和列) 由托管资源中的数据(或其子集)提供支持的服务。例如, 可能由 Cloud Storage 中的一个 Cloud Storage 对象子集提供支持 BigQuery 数据集中的一个 BigQuery 表。

  • 表作为第一类概念出现在 Dataproc Metastore 中, Data Catalog 和 BigQuery(元数据注册)。 在发现数据或发布到数据库时,表不会在下游显示 未启用。例如,从用户那里发现的表 如果存在以下情况,则 Cloud Storage 中的数据 未启用发布到 BigQuery 的功能。
  • 由发现系统发现。无法由该用户创建。
  • 生成的表名称应简短而有意义 查询。名称包含三个部分,即 [Prefix_]table root path[_Sequence number]

可用区

在数据湖中创建的一个或多个数据资源的逻辑容器。数据区域 可用于为组织内的业务部门(例如, 与运维相比)。数据区域还会对数据历程或数据使用准备情况进行建模。

原始区域

数据区域包含需要进一步处理的数据 通常被视为已准备好使用和分析工作负载。

精选区域

一个数据区域,包含被视为可供更大范围扩展的数据 工作负载和分析工作负载。存储在以下位置的精选结构化数据: Cloud Storage 必须符合某些文件格式(Parquet、Avro 和 ORC)并以与 Hive 兼容的目录布局进行整理。

后续步骤