指标参考文档

本页面列出并描述了在数据剖析文件中收集的所有指标。

数据剖析文件有三种类型:项目数据剖析文件表数据剖析文件列数据剖析文件

项目数据分析文件

每个项目数据分析文件都含有以下字段。这些字段的值根据项目中剖析的资源进行汇总。

数据分析

项目数据分析文件可提供以下数据洞见:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
指示此项目的敏感度级别的得分。如需了解详情,请参阅敏感度和数据风险级别

元数据

项目数据分析文件提供以下元数据:

上次生成分析文件的时间
上次生成剖析文件的日期和时间。
项目 ID
已剖析的项目的 ID。
资源名称
数据剖析文件的完全限定名称。
状态
指示剖析操作状态的图标。

表数据分析文件

每个表数据分析文件都含有以下字段:

数据分析

表数据分析文件可提供以下数据洞见:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
表示此表格的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别

元数据

表数据分析文件提供以下元数据:

数据库
包含已分析表的数据库。此字段仅适用于 Cloud SQL 发现
数据集 ID
包含此表的数据集的 ID。
加密
此表的加密是由 Google 还是贵组织管理。
到期时间
可选。此表的到期时间。
失败的列数
由于发生错误而跳过的此表中的列数。
检查配置快照
生成剖析文件时使用的检查模板的快照。如需了解详情,请参阅数据剖析文件快照
实例
包含已分析表的实例。此字段仅适用于 Cloud SQL 发现
上次生成分析文件的时间
上次生成剖析文件的日期和时间。
在 BigQuery 中的最近更新时间
此表的上次修改日期和时间。
项目 ID
包含此表的项目的 ID。
公开

此表是可供所有用户使用还是仅限特定用户使用。

资源标签

生成分析文件时表具有的标签

资源标记

生成分析文件时表具有的标记

资源名称

数据剖析文件的完全限定名称。

行数

生成剖析文件时此表中的行数。

扫描的列数

此表中剖析的列数。

服务账号

拥有访问此表所需的 IAM 权限的服务账号数。

状态

指示配置文件是否成功生成。

表 ID

相应表格的 ID。

表创建时间

表的创建日期和时间。

表格大小

生成剖析文件时此表的大小。

类型

执行的发现类型

列数据分析文件

每个列数据分析文件都含有以下字段:

数据分析

列数据分析文件可提供以下数据洞见:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
指示此列的敏感度级别的分数。如需了解详情,请参阅敏感度和数据风险级别
预测的 infoType

如果某个内置自定义 infoType 明显优于此列中的其他项,Sensitive Data Protection 会将此字段设置为该 infoType。否则,此字段没有值。

如需查看在该列中检测到的所有 infoType 的列表,请参阅其他 infoType 字段。

Sensitive Data Protection 仅扫描您在检查模板中指定的信息类型。因此,只有这些 infoType 才能显示在预测的 infoType 字段中。例如,如果列含有电子邮件地址,但未在检查模板中添加 EMAIL_ADDRESS infoType 检测器,则此字段不包含 EMAIL_ADDRESS

如果列数据主要与属于同一通用类别的多个密切相关的 infoType 相匹配,Sensitive Data Protection 会将此字段设置为更通用的 infoType。例如,如果列主要包含 PASSPORTAUSTRALIA_PASSPORTCANADA_PASSPORT infoType 的混合内容,则 Predicted infoType 字段会设置为 PASSPORT其他 infoType 字段会显示更具体的 infoType 及其估算的普及率。

其他 infoType

在列中检测到的 infoType,但其信号强度不足以被视为该列的预测 infoType。在本文档中,请参阅预测的 infoType

对于 2022 年 10 月 13 日之后生成的数据剖析文件,此字段中列出的每种 infoType 都有一个估计的普遍程度。估算的普及率是指检测到相应 infoType 的非 null 行所占的近似百分比。

例如,假设您有一个列,其中包含以下指标:

  • 预测的 infoTypeFDA_CODE
  • 其他 infoTypePERSON_NAME (2%)STREET_ADDRESS (1%)

在此示例中,有充分的证据表明该列包含 FDA 代码。敏感数据保护还确定,该列中大约 2% 的非 null 行可能包含人名,1% 可能包含街道地址。

Sensitive Data Protection 仅扫描您在检查模板中指定的信息类型。因此,只有这些 infoType 才能显示在其他 infoType 字段中。例如,如果列含有电子邮件地址,但未在检查模板中添加 EMAIL_ADDRESS infoType 检测器,则此字段不包含 EMAIL_ADDRESS

估算的 null 值所占比例

此列中 null 值的近似比例,分为高、中、低或非常低。如果此列中有很大一部分条目为 null,则此值较高。

估算的唯一性

说明此列中有多少数据具有唯一性的估算值,分为高、中、低三类。惟一性级别越高,表明该列包含的不同值越多。如果唯一值的存在率较高,则可能表明相应列包含标识符。

惟一性级别越低,表明该列包含的共同值越多,如枚举值或布尔值。

如果敏感数据保护功能确定表中的行数不足以计算此指标,则此值为空白。

自由文本得分

此列包含自由格式文本的概率。值接近 1 表示该列可能包含自由格式文本或自然语言文本。可能的值范围是 0 到 1 之间。

高自由文本得分可以提高列的数据风险和敏感度等级

元数据

列数据分析文件提供以下元数据:

数据库
包含已分析的表列的数据库。此字段仅适用于 Cloud SQL 发现
数据类型
此列所含内容的数据类型。
数据集 ID
包含此表列的数据集的 ID。
字段 ID
列的名称。
实例
包含已分析的表列的实例。此字段仅适用于 Cloud SQL 发现
实例位置
包含已分析的表列的实例的位置。此字段仅适用于 Cloud SQL 发现。
上次生成分析文件的时间
上次生成剖析文件的日期和时间。
政策标记
指示政策标记是否应用于列。如需了解使用政策标记的最佳做法,请参阅在 BigQuery 中使用政策标记
项目 ID
包含此表列的项目的 ID。
资源名称
数据剖析文件的完全限定名称。
状态
指示剖析操作状态的图标。
表 ID
包含此列的表的 ID。

文件存储区数据分析文件

Sensitive Data Protection 使用“文件存储区”一词来指代文件存储桶或容器。

每个文件存储区数据分析文件都含有以下字段。

数据分析

文件存储区数据分析可提供以下数据洞见:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
文件集群
提供在分析相应文件存储区时检测到的每个文件集群的摘要。如需详细了解每种摘要,请参阅本页面上的文件集群摘要
敏感程度
表示此文件存储区的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别

元数据

文件存储区数据分析文件提供以下元数据:

数据存储位置

如果您分析的是双区域 Cloud Storage 存储桶,则此字段会列出这两个区域。

如果您分析了来自其他云服务提供商的文件存储区,则此值为云服务提供商存储文件存储区的区域。

加密

此文件存储的加密是由 Google 还是贵组织管理。

文件存储区类型

已分析的数据的来源 - Cloud Storage、Amazon S3 或 Azure Blob Storage。

文件存储区路径

文件存储区的名称。

检查配置快照

生成剖析文件时使用的检查模板的快照。如需了解详情,请参阅数据剖析文件快照

位置类型

文件存储区的存储位置类型:regiondual-regionmulti-region

首次创建分析文件的时间

首次创建相应配置文件的日期和时间。

上次生成配置文件的时间

上次生成配置文件的日期和时间。

父级 ID

拥有所分析数据的资源。

  • 如果数据分析对象是 Google Cloud 资源,则这是包含数据的项目的 ID。
  • 如果数据分析文件是针对 Amazon S3 存储桶的,则这是包含相应存储桶的 AWS 账号的 ID。
  • 如果数据分析是针对 Azure Blob Storage 容器的,则这是包含该容器的 Azure 订阅的 ID。
公开

此文件存储区是可供所有用户使用还是仅限特定用户使用。

资源标签

生成分析文件时文件存储区具有的标签。

资源标记

生成分析文件时文件存储区具有的标记

资源位置

包含文件存储区的单区域或多区域。

如果您分析的是双区域 Cloud Storage 存储桶,则此值取决于该存储桶是否存储在预定义的双区域中:

  • 对于预定义的双区域,Sensitive Data Protection 会将此值设置为预定义的双区域名称。
  • 对于标准双区域,Sensitive Data Protection 会将此值设置为包含双区域的多区域。如需了解区域与多区域的对应关系,请参阅双区域
资源名称

数据剖析文件的完全限定名称。

状态

指示配置文件是否成功生成。

文件集群摘要

生成文件存储区数据分析时,文件会分组为文件集群。敏感数据保护功能会为每个文件聚类提供摘要。

每个文件集群摘要都包含以下字段:

数据风险
与此文件集群中的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
错误
生成文件存储区数据分析时检测到的任何错误。
扫描的文件扩展名
检测到并扫描以生成文件存储区数据分析结果的文件类型列表。
发现的文件扩展名
检测到但不一定扫描的文件类型列表。
InfoType
相应文件集群中检测到的内置自定义 infoType 的列表。
敏感程度
表示相应文件集群的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别
类型

表示相应集群中的文件类别。如需详细了解所有受支持的文件簇,请参阅发现操作中受支持的文件簇