本页面列出并描述了在数据剖析文件中收集的所有指标。
数据剖析文件有三种类型:项目数据剖析文件、表数据剖析文件和列数据剖析文件。
项目数据分析文件
每个项目数据分析文件都含有以下字段。这些字段的值根据项目中剖析的资源进行汇总。
数据分析
项目数据分析文件可提供以下数据分析:
- 数据风险
- 与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 敏感程度
- 指示此项目的敏感度级别的得分。如需了解详情,请参阅敏感度和数据风险级别。
元数据
项目数据配置文件提供以下元数据:
- 上次生成分析文件的时间
- 上次生成配置文件的日期和时间。
- 项目 ID
- 已剖析的项目的 ID。
- 资源名称
- 数据剖析文件的完全限定名称。
- 状态
- 指示剖析操作状态的图标。
表数据分析文件
每个表数据分析文件都含有以下字段:
数据分析
表数据分析文件提供以下数据分析:
- 数据风险
- 与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 敏感程度
- 表示此表格的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别。
元数据
表数据分析文件提供以下元数据:
- 数据库
- 包含所分析表的数据库。此字段仅适用于 Cloud SQL 发现。
- 数据集 ID
- 包含此表的数据集的 ID。
- 加密
- 此表的加密是由 Google 还是贵组织管理。
- 到期时间
- 可选。此表的到期时间。
- 失败的列数
- 由于发生错误而跳过的此表中的列数。
- 检查配置快照
- 生成剖析文件时使用的检查模板的快照。如需了解详情,请参阅数据剖析文件快照。
- 实例
- 包含所分析表的实例。此字段仅适用于 Cloud SQL 发现。
- 上次生成分析文件的时间
- 上次生成配置文件的日期和时间。
- 在 BigQuery 中的最近更新时间
- 此表格的上次修改日期和时间。
- 项目 ID
- 包含此表的项目的 ID。
- 公开
- 此表是可供所有用户使用还是仅限特定用户使用。
- 资源标签
- 生成分析文件时表具有的标签。
- 资源名称
- 数据剖析文件的完全限定名称。
- 行数
- 生成剖析文件时此表中的行数。
- 扫描的列数
- 此表中剖析的列数。
- 服务账号
- 拥有访问此表所需的 IAM 权限的服务账号数。
- 状态
- 指示配置文件是否已成功生成。
- 表 ID
- 此表格的 ID。
- 表创建时间
- 创建表的日期和时间。
- 表大小
- 生成剖析文件时此表的大小。
- 类型
- 执行的发现类型。
列数据分析文件
每个列数据分析文件都含有以下字段:
数据分析
列数据分析文件提供以下数据分析:
- 数据风险
- 与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 敏感程度
- 指示此列的敏感度级别的分数。如需了解详情,请参阅敏感度和数据风险级别。
- 预测的 infoType
如果单个内置或自定义 infoType 明显优于此列中的其他项,则敏感数据保护会将此字段设置为该 infoType。否则,此字段没有值。
如需查看在该列中检测到的所有 infoType 的列表,请参阅其他 infoType 字段。
敏感数据保护仅扫描您在检查模板中指定的 infoType。因此,只有这些 infoType 可以显示在预测的 infoType 字段中。例如,如果列包含电子邮件地址,但您未在检查模板中添加
EMAIL_ADDRESS
infoType 检测器,则此字段不包含EMAIL_ADDRESS
。在本文档中,请参阅其他 infoType。
- 其他 infoType
在列中检测到的 InfoType 信号不足,无法被视为该列的预测的 infoType。在本文档中,请参阅预测的 infoType。
对于 2022 年 10 月 13 日之后生成的数据分析文件,此字段中列出的每个 infoType 都有一个估计的普及率。估算的普及率是检测到 infoType 的非 null 行所占的近似百分比。
例如,假设您有一个包含以下指标的列:
- 预测的 infoType:
FDA_CODE
- 其他 infoType:
PERSON_NAME (2%)
、STREET_ADDRESS (1%)
在此示例中,有强烈的迹象表明该列包含 FDA 代码。敏感数据保护还确定,列中大约 2% 的非 null 行可能包含人名,1% 可能包含街道地址。
敏感数据保护仅扫描您在检查模板中指定的 infoType。因此,只有这些 infoType 可以显示在其他 infoType 字段中。例如,如果列包含电子邮件地址,但您未在检查模板中添加
EMAIL_ADDRESS
infoType 检测器,则此字段不包含EMAIL_ADDRESS
。- 预测的 infoType:
- 估算的 null 值所占比例
此列中 null 值的近似比例,分为高、中、低或极低。如果此列中的很大一部分条目为 null,则此值很高。
- 估算的唯一性
此列中有多少数据具有唯一性(分类为高、中或低)的估算值。唯一性级别越高,表明该列包含不同的值。如果唯一值出现次数较多,可能表示该列包含标识符。
惟一性级别越低,表明该列包含许多共同值,如枚举值或布尔值。
如果敏感数据保护确定表中没有足够的行来计算此指标,则此值为空。
- 自由文本得分
此列包含自由格式文本的概率。值接近 1 表示该列可能包含自由格式文本或自然语言文本。可能的值范围是 0 到 1 之间。
高自由文本得分可以提高列的数据风险和敏感度等级。
元数据
列数据剖析文件提供以下元数据:
- 数据库
- 包含所分析的表列的数据库。此字段仅适用于 Cloud SQL 发现。
- 数据类型
- 此列所含内容的数据类型。
- 数据集 ID
- 包含此表列的数据集的 ID。
- 字段 ID
- 列的名称。
- 实例
- 所分析的表列所在的实例。此字段仅适用于 Cloud SQL 发现。
- 实例位置
- 包含所分析的表列的实例的位置。此字段仅适用于 Cloud SQL 发现。
- 上次生成分析文件的时间
- 上次生成配置文件的日期和时间。
- 政策标记
- 指示政策标记是否应用于列。如需了解使用政策标记的最佳做法,请参阅在 BigQuery 中使用政策标记。
- 项目 ID
- 包含此表列的项目的 ID。
- 资源名称
- 数据剖析文件的完全限定名称。
- 状态
- 指示剖析操作状态的图标。
- 表 ID
- 包含此列的表的 ID。