再識別と開示リスクの評価

再識別リスク分析(または単にリスク分析)機密データを分析し、対象が特定されるリスクを増大させるおそれのあるプロパティを見つけ出すプロセスです。リスク分析の手法を使用して、匿名化を行う前に効果的な匿名化方式を決定したり、匿名化を行った後で変更や異常値をモニタリングしたりできます。

Cloud データ損失防止(DLP)では、k-匿名性、l-多様性、k-マップ、δ-存在性の 4 つのリスク指標を計算できます。リスク分析やこれらの指標に関する知識がない場合は、続行する前にリスク分析のコンセプトのトピックをご覧ください。

このセクションでは、Cloud DLP でこの指標を使って構造化データのリスク分析を行う方法の概要と、その他の関連トピックについて説明します。

再識別リスクの計算

Cloud DLP では、BigQuery テーブルに保存されている構造化データを分析して、次の再識別指標を計算できます。計算する指標のリンクをクリックすると、詳細が表示されます。

指標 説明
k-匿名性 データセットのレコードの再識別可能性を示すプロパティです。データセット内の各人物の準識別子が、データセット内の少なくとも k - 1 人の他の人物と同一である場合、そのデータセットは k-匿名性を持っています。
l-多様性 k-匿名性を拡張したもので、機密値が発生する各列の機密値の多様性を追加的に測定します。同一の準識別子を持つ行のすべての集合で、各機密属性について少なくとも l 個の異なる値がある場合、そのデータセットは l-多様性を持っています。
k-マップ 主体の匿名化されたデータセットと、より大きな再識別(または「攻撃」)データセットを比較することによって、再識別可能性リスクを計算します。
δ-存在性 より大きな母集団に含まれる特定のユーザーがデータセットに存在する確率を推定します。これは、データセット内に存在すること自体が機密情報になる場合に使用します。

その他の統計情報の計算

Cloud DLP では、リスク分析 API と同じ DlpJob リソースを使用して、BigQuery テーブルに保存されているデータの数値統計とカテゴリ統計を計算することもできます。

指標 説明
数値統計 個々の BigQuery 列の最小値、最大値、分位値を決定します。
カテゴリ別の数値統計 BigQuery 列内の個々のヒストグラム バケットのカテゴリ別数値統計を計算します。

詳しくは、数値統計とカテゴリ別の統計の計算をご覧ください。

再識別リスクの可視化

Cloud DLP や他の Google Cloud プロダクトを使用すれば、Cloud DLP が Cloud Console で直接計算するリスク指標(k-匿名性 または l-多様性)を可視化できます。

サービス 説明
データポータル Cloud DLP を使用してデータセットの k-匿名性の値を計算すると、Google データポータルで結果を可視化できます。そうすることで、再識別リスクをより深く理解し、データの秘匿化や匿名化を行う場合に有用性のトレードオフを評価するのに役立ちます。