本页面列出并描述了在数据剖析文件中收集的所有指标。
数据剖析文件有三种类型:项目数据剖析文件、表数据剖析文件和列数据剖析文件。
项目数据分析文件
每个项目数据分析文件都含有以下字段。这些字段的值根据项目中剖析的资源进行汇总。
数据分析
项目数据分析文件可提供以下数据洞见:
- 数据风险
- 与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 敏感程度
- 指示此项目的敏感度级别的得分。如需了解详情,请参阅敏感度和数据风险级别。
元数据
项目数据分析文件提供以下元数据:
- 上次生成分析文件的时间
- 上次生成剖析文件的日期和时间。
- 项目 ID
- 已剖析的项目的 ID。
- 资源名称
- 数据剖析文件的完全限定名称。
- 状态
- 指示剖析操作状态的图标。
表数据分析文件
每个表数据分析文件都含有以下字段:
数据分析
表数据分析文件可提供以下数据洞见:
- 数据风险
- 与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 敏感程度
- 表示此表格的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别。
元数据
表数据分析文件提供以下元数据:
- 数据库
- 包含已分析表的数据库。此字段仅适用于 Cloud SQL 发现。
- 数据集 ID
- 包含此表的数据集的 ID。
- 加密
- 此表的加密是由 Google 还是贵组织管理。
- 到期时间
- 可选。此表的到期时间。
- 失败的列数
- 由于发生错误而跳过的此表中的列数。
- 检查配置快照
- 生成剖析文件时使用的检查模板的快照。如需了解详情,请参阅数据剖析文件快照。
- 实例
- 包含已分析表的实例。此字段仅适用于 Cloud SQL 发现。
- 上次生成分析文件的时间
- 上次生成剖析文件的日期和时间。
- 在 BigQuery 中的最近更新时间
- 此表的上次修改日期和时间。
- 项目 ID
- 包含此表的项目的 ID。
- 公开
此表是可供所有用户使用还是仅限特定用户使用。
- 资源标签
生成分析文件时表具有的标签。
- 资源标记
生成分析文件时表具有的标记。
- 资源名称
数据剖析文件的完全限定名称。
- 行数
生成剖析文件时此表中的行数。
- 扫描的列数
此表中剖析的列数。
- 服务账号
拥有访问此表所需的 IAM 权限的服务账号数。
- 状态
指示配置文件是否成功生成。
- 表 ID
相应表格的 ID。
- 表创建时间
表的创建日期和时间。
- 表格大小
生成剖析文件时此表的大小。
- 类型
执行的发现类型。
列数据分析文件
每个列数据分析文件都含有以下字段:
数据分析
列数据分析文件可提供以下数据洞见:
- 数据风险
- 与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 敏感程度
- 指示此列的敏感度级别的分数。如需了解详情,请参阅敏感度和数据风险级别。
- 预测的 infoType
如果某个内置或自定义 infoType 明显优于此列中的其他项,Sensitive Data Protection 会将此字段设置为该 infoType。否则,此字段没有值。
如需查看在该列中检测到的所有 infoType 的列表,请参阅其他 infoType 字段。
Sensitive Data Protection 仅扫描您在检查模板中指定的信息类型。因此,只有这些 infoType 才能显示在预测的 infoType 字段中。例如,如果列含有电子邮件地址,但未在检查模板中添加
EMAIL_ADDRESS
infoType 检测器,则此字段不包含EMAIL_ADDRESS
。如果列数据主要与属于同一通用类别的多个密切相关的 infoType 相匹配,Sensitive Data Protection 会将此字段设置为更通用的 infoType。例如,如果列主要包含
PASSPORT
、AUSTRALIA_PASSPORT
和CANADA_PASSPORT
infoType 的混合内容,则 Predicted infoType 字段会设置为PASSPORT
。其他 infoType 字段会显示更具体的 infoType 及其估算的普及率。- 其他 infoType
在列中检测到的 infoType,但其信号强度不足以被视为该列的预测 infoType。在本文档中,请参阅预测的 infoType。
对于 2022 年 10 月 13 日之后生成的数据剖析文件,此字段中列出的每种 infoType 都有一个估计的普遍程度。估算的普及率是指检测到相应 infoType 的非 null 行所占的近似百分比。
例如,假设您有一个列,其中包含以下指标:
- 预测的 infoType:
FDA_CODE
- 其他 infoType:
PERSON_NAME (2%)
、STREET_ADDRESS (1%)
在此示例中,有充分的证据表明该列包含 FDA 代码。敏感数据保护还确定,该列中大约 2% 的非 null 行可能包含人名,1% 可能包含街道地址。
Sensitive Data Protection 仅扫描您在检查模板中指定的信息类型。因此,只有这些 infoType 才能显示在其他 infoType 字段中。例如,如果列含有电子邮件地址,但未在检查模板中添加
EMAIL_ADDRESS
infoType 检测器,则此字段不包含EMAIL_ADDRESS
。- 预测的 infoType:
- 估算的 null 值所占比例
此列中 null 值的近似比例,分为高、中、低或非常低。如果此列中有很大一部分条目为 null,则此值较高。
- 估算的唯一性
说明此列中有多少数据具有唯一性的估算值,分为高、中、低三类。惟一性级别越高,表明该列包含的不同值越多。如果唯一值的存在率较高,则可能表明相应列包含标识符。
惟一性级别越低,表明该列包含的共同值越多,如枚举值或布尔值。
如果敏感数据保护功能确定表中的行数不足以计算此指标,则此值为空白。
- 自由文本得分
此列包含自由格式文本的概率。值接近 1 表示该列可能包含自由格式文本或自然语言文本。可能的值范围是 0 到 1 之间。
高自由文本得分可以提高列的数据风险和敏感度等级。
元数据
列数据分析文件提供以下元数据:
- 数据库
- 包含已分析的表列的数据库。此字段仅适用于 Cloud SQL 发现。
- 数据类型
- 此列所含内容的数据类型。
- 数据集 ID
- 包含此表列的数据集的 ID。
- 字段 ID
- 列的名称。
- 实例
- 包含已分析的表列的实例。此字段仅适用于 Cloud SQL 发现。
- 实例位置
- 包含已分析的表列的实例的位置。此字段仅适用于 Cloud SQL 发现。
- 上次生成分析文件的时间
- 上次生成剖析文件的日期和时间。
- 政策标记
- 指示政策标记是否应用于列。如需了解使用政策标记的最佳做法,请参阅在 BigQuery 中使用政策标记。
- 项目 ID
- 包含此表列的项目的 ID。
- 资源名称
- 数据剖析文件的完全限定名称。
- 状态
- 指示剖析操作状态的图标。
- 表 ID
- 包含此列的表的 ID。
文件存储区数据分析文件
Sensitive Data Protection 使用“文件存储区”一词来指代文件存储桶或容器。
每个文件存储区数据分析文件都含有以下字段。
数据分析
文件存储区数据分析可提供以下数据洞见:
- 数据风险
- 与处于当前状态的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 文件集群
- 提供在分析相应文件存储区时检测到的每个文件集群的摘要。如需详细了解每种摘要,请参阅本页面上的文件集群摘要。
- 敏感程度
- 表示此文件存储区的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别。
元数据
文件存储区数据分析文件提供以下元数据:
- 数据存储位置
如果您分析的是双区域 Cloud Storage 存储桶,则此字段会列出这两个区域。
如果您分析了来自其他云服务提供商的文件存储区,则此值为云服务提供商存储文件存储区的区域。
- 加密
此文件存储的加密是由 Google 还是贵组织管理。
- 文件存储区类型
已分析的数据的来源 - Cloud Storage、Amazon S3 或 Azure Blob Storage。
- 文件存储区路径
文件存储区的名称。
- 检查配置快照
- 位置类型
文件存储区的存储位置类型:
region
、dual-region
或multi-region
。- 首次创建分析文件的时间
首次创建相应配置文件的日期和时间。
- 上次生成配置文件的时间
上次生成配置文件的日期和时间。
- 父级 ID
拥有所分析数据的资源。
- 如果数据分析对象是 Google Cloud 资源,则这是包含数据的项目的 ID。
- 如果数据分析文件是针对 Amazon S3 存储桶的,则这是包含相应存储桶的 AWS 账号的 ID。
- 如果数据分析是针对 Azure Blob Storage 容器的,则这是包含该容器的 Azure 订阅的 ID。
- 公开
此文件存储区是可供所有用户使用还是仅限特定用户使用。
- 资源标签
生成分析文件时文件存储区具有的标签。
- 资源标记
生成分析文件时文件存储区具有的标记。
- 资源位置
包含文件存储区的单区域或多区域。
如果您分析的是双区域 Cloud Storage 存储桶,则此值取决于该存储桶是否存储在预定义的双区域中:
- 资源名称
数据剖析文件的完全限定名称。
- 状态
指示配置文件是否成功生成。
文件集群摘要
生成文件存储区数据分析时,文件会分组为文件集群。敏感数据保护功能会为每个文件聚类提供摘要。
每个文件集群摘要都包含以下字段:
- 数据风险
- 与此文件集群中的数据关联的风险级别。如需了解详情,请参阅敏感度和数据风险级别。
- 错误
- 生成文件存储区数据分析时检测到的任何错误。
- 扫描的文件扩展名
- 检测到并扫描以生成文件存储区数据分析结果的文件类型列表。
- 发现的文件扩展名
- 检测到但不一定扫描的文件类型列表。
- InfoType
- 相应文件集群中检测到的内置和自定义 infoType 的列表。
- 敏感程度
- 表示相应文件集群的敏感度得分。如需了解详情,请参阅敏感度和数据风险级别。
- 类型
表示相应集群中的文件类别。如需详细了解所有受支持的文件簇,请参阅发现操作中受支持的文件簇。