指标参考文档

本页面列出并描述了在数据剖析文件中收集的所有指标。

数据剖析文件有三种类型:项目数据剖析文件表数据剖析文件列数据剖析文件

项目数据分析文件

每个项目数据分析文件都含有以下字段。这些字段的值根据项目中剖析的资源进行汇总。

数据分析

项目数据分析文件可提供以下数据分析:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
指示此项目的敏感度级别的得分。如需了解详情,请参阅敏感度和数据风险级别

元数据

项目数据配置文件提供以下元数据:

上次生成分析文件的时间
上次生成配置文件的日期和时间。
项目 ID
已剖析的项目的 ID。
资源名称
数据剖析文件的完全限定名称。
状态
指示剖析操作状态的图标。

表数据分析文件

每个表数据分析文件都含有以下字段:

数据分析

表数据分析文件提供以下数据分析:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
表示此表格的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别

元数据

表数据分析文件提供以下元数据:

数据库
包含所分析表的数据库。此字段仅适用于 Cloud SQL 发现
数据集 ID
包含此表的数据集的 ID。
加密
此表的加密是由 Google 还是贵组织管理。
到期时间
可选。此表的到期时间。
失败的列数
由于发生错误而跳过的此表中的列数。
检查配置快照
生成剖析文件时使用的检查模板的快照。如需了解详情,请参阅数据剖析文件快照
实例
包含所分析表的实例。此字段仅适用于 Cloud SQL 发现
上次生成分析文件的时间
上次生成配置文件的日期和时间。
在 BigQuery 中的最近更新时间
此表格的上次修改日期和时间。
项目 ID
包含此表的项目的 ID。
公开
此表是可供所有用户使用还是仅限特定用户使用。
资源标签
生成分析文件时表具有的标签
资源名称
数据剖析文件的完全限定名称。
行数
生成剖析文件时此表中的行数。
扫描的列数
此表中剖析的列数。
服务账号
拥有访问此表所需的 IAM 权限的服务账号数。
状态
指示配置文件是否已成功生成。
表 ID
此表格的 ID。
表创建时间
创建表的日期和时间。
表大小
生成剖析文件时此表的大小。
类型
执行的发现类型

列数据分析文件

每个列数据分析文件都含有以下字段:

数据分析

列数据分析文件提供以下数据分析:

数据风险
与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别
敏感程度
指示此列的敏感度级别的分数。如需了解详情,请参阅敏感度和数据风险级别
预测的 infoType

如果单个内置自定义 infoType 明显优于此列中的其他项,则敏感数据保护会将此字段设置为该 infoType。否则,此字段没有值。

如需查看在该列中检测到的所有 infoType 的列表,请参阅其他 infoType 字段。

敏感数据保护仅扫描您在检查模板中指定的 infoType。因此,只有这些 infoType 可以显示在预测的 infoType 字段中。例如,如果列包含电子邮件地址,但您未在检查模板中添加 EMAIL_ADDRESS infoType 检测器,则此字段不包含 EMAIL_ADDRESS

在本文档中,请参阅其他 infoType

其他 infoType

在列中检测到的 InfoType 信号不足,无法被视为该列的预测的 infoType。在本文档中,请参阅预测的 infoType

对于 2022 年 10 月 13 日之后生成的数据分析文件,此字段中列出的每个 infoType 都有一个估计的普及率。估算的普及率是检测到 infoType 的非 null 行所占的近似百分比。

例如,假设您有一个包含以下指标的列:

  • 预测的 infoTypeFDA_CODE
  • 其他 infoTypePERSON_NAME (2%)STREET_ADDRESS (1%)

在此示例中,有强烈的迹象表明该列包含 FDA 代码。敏感数据保护还确定,列中大约 2% 的非 null 行可能包含人名,1% 可能包含街道地址。

敏感数据保护仅扫描您在检查模板中指定的 infoType。因此,只有这些 infoType 可以显示在其他 infoType 字段中。例如,如果列包含电子邮件地址,但您未在检查模板中添加 EMAIL_ADDRESS infoType 检测器,则此字段不包含 EMAIL_ADDRESS

估算的 null 值所占比例

此列中 null 值的近似比例,分为高、中、低或极低。如果此列中的很大一部分条目为 null,则此值很高。

估算的唯一性

此列中有多少数据具有唯一性(分类为高、中或低)的估算值。唯一性级别越高,表明该列包含不同的值。如果唯一值出现次数较多,可能表示该列包含标识符。

惟一性级别越低,表明该列包含许多共同值,如枚举值或布尔值。

如果敏感数据保护确定表中没有足够的行来计算此指标,则此值为空。

自由文本得分

此列包含自由格式文本的概率。值接近 1 表示该列可能包含自由格式文本或自然语言文本。可能的值范围是 0 到 1 之间。

高自由文本得分可以提高列的数据风险和敏感度等级

元数据

列数据剖析文件提供以下元数据:

数据库
包含所分析的表列的数据库。此字段仅适用于 Cloud SQL 发现
数据类型
此列所含内容的数据类型。
数据集 ID
包含此表列的数据集的 ID。
字段 ID
列的名称。
实例
所分析的表列所在的实例。此字段仅适用于 Cloud SQL 发现
实例位置
包含所分析的表列的实例的位置。此字段仅适用于 Cloud SQL 发现。
上次生成分析文件的时间
上次生成配置文件的日期和时间。
政策标记
指示政策标记是否应用于列。如需了解使用政策标记的最佳做法,请参阅在 BigQuery 中使用政策标记
项目 ID
包含此表列的项目的 ID。
资源名称
数据剖析文件的完全限定名称。
状态
指示剖析操作状态的图标。
表 ID
包含此列的表的 ID。