データセットの δ-存在性の計算

デルタ存在性(δ-存在性)は、個人が分析対象のデータセットに含まれている確率を数値化する指標です。k-マップと同様に、δ-存在性の値も Cloud DLP を使用して推定できます。Cloud DLP は統計モデルを使用して攻撃データセットを推定します。

δ-存在性は、攻撃データセットが明示的に知られている他のリスク分析手法とは対照的なものです。Cloud DLP は、データの種類に応じて、一般に公開されているデータセット(米国国勢調査のデータセットなど)またはカスタム統計モデル(ユーザーが指定する 1 つ以上の BigQuery テーブルなど)を使用するか、ユーザーが入力したデータセット内の値の分布から推定します。

このトピックでは、Cloud Data Loss Prevention(DLP)を使用して、データセットの δ-存在性の値を計算する方法について説明します。δ-存在性またはリスク分析の概要については、続行する前に、リスク分析のコンセプトのトピックをご覧ください。

始める前に

続行する前に、以下を行ってください。

  1. Google アカウントにログインします。
  2. Google Cloud Console のプロジェクト セレクタ ページで、Google Cloud プロジェクトを選択または作成します。
  3. プロジェクト セレクタに移動
  4. Google Cloud プロジェクトに対して課金が有効になっていることを確認します。 プロジェクトに対して課金が有効になっていることを確認する方法を学習する
  5. Cloud DLP を有効にします。
  6. Cloud DLP を有効にする

  7. 分析する BigQuery データセットを選択します。Cloud DLP は、BigQuery テーブルをスキャンして δ-存在性指標を見積もります。
  8. 攻撃データセットをモデル化するために使用するデータセットの種類を決定します。詳細については、DeltaPresenceEstimationConfig オブジェクトのリファレンス ページ、リスク分析の用語と手法をご覧ください。

δ-存在性指標の計算

Cloud DLP を使用して δ-存在性の推定値を計算するには、次の URL にリクエストを送信します。PROJECT_IDプロジェクト ID を示します。

https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs

このリクエストには、次の項目で構成される RiskAnalysisJobConfig オブジェクトが含まれます。

  • PrivacyMetric オブジェクト。ここで、以下を含む DeltaPresenceEstimationConfig オブジェクトを指定して、δ-存在性を計算することを指定します。

    • quasiIds[]: 必須。準識別子とみなされるフィールド(QuasiId オブジェクト)です。δ-存在性を計算するためにスキャンして使用されます。2 つの列に同じタグを付けることはできません。次のいずれかを指定できます。

      • infoType: この場合 Cloud DLP は、関連する一般公開データセットを母集団の統計モデルとして使用します(米国の郵便番号、地域コード、年齢、性別など)。
      • カスタム infoType: この列の有効な値に関する統計情報を含む補助テーブル(AuxiliaryTable オブジェクト)を示すカスタムタグ。
      • inferred タグ: 意味のあるタグが示されない場合は、inferred を指定します。Cloud DLP は入力データの値の分布から統計モデルを推定します。
    • regionCode: Cloud DLP が統計モデルで使用する ISO 3166-1 alpha-2 地域コード。この値は、列が地域固有の infoType(米国の郵便番号など)または地域コードでタグ付けされていない場合に必要です。

    • auxiliaryTables[]: 分析で使用する補助テーブル(StatisticalTable オブジェクト)。準識別子(quasiIds[])の列に付けるカスタムタグは、それぞれ 1 つの補助テーブルの 1 つの列でのみ使用する必要があります。

  • BigQueryTable オブジェクト。次のすべてを含めることで、スキャンする BigQuery テーブルを指定します。

    • projectId: テーブルを含むプロジェクトのプロジェクト ID。
    • datasetId: テーブルのデータセット ID。
    • tableId: テーブルの名前。
  • 1 つ以上の Action オブジェクトのセット。これは、ジョブの完了時に所定の順序で実行するアクションを表します。各 Action オブジェクトには、次のいずれかのアクションを含めることができます。

δ-存在性ジョブの結果を表示する

REST API を使用して δ-存在性のリスク分析ジョブの結果を取得するには、次の GET リクエストを projects.dlpJobs リソースに送信します。PROJECT_ID はプロジェクト ID に、JOB_ID は結果を取得するジョブの識別子に置き換えます。ジョブ ID は、ジョブの開始時に返されています。また、すべてのジョブの一覧表示して取得することもできます。

GET https://dlp.googleapis.com/v2/projects/PROJECT_ID/dlpJobs/JOB_ID

リクエストは、ジョブのインスタンスを含む JSON オブジェクトを返します。分析結果は、AnalyzeDataSourceRiskDetails オブジェクトの "riskDetails" キーにあります。詳細については、DlpJob の API リファレンスをご覧ください。

次のステップ

  • データセットの k-匿名性の値の計算方法を学ぶ。
  • データセットの l-多様性の値の計算方法を学ぶ。
  • データセットの k-マップの値の計算方法を学ぶ。