BigQuery データ クリーンルームで、プライバシー バジェットに基づく差分プライバシーの利用が可能に
Google Cloud Japan Team
※この投稿は米国時間 2024 年 4 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、BigQuery データ クリーンルームでプライバシー バジェットに基づく差分プライバシーを利用できるようになりました。これにより、組織はデータを共有する際に、データが再識別されることを回避できるようになります。
差分プライバシーは、クエリ出力によって公開される個人情報を制限する匿名化技術です。この技術は、現在利用可能なプライバシー保護手段の中で最も強固なものの一つです。その理由は以下のとおりです。
-
データが限定公開されることが実証されている
-
同じデータセットに対する、差分プライバシーを使用した複数クエリに対応している
-
さまざまな種類のデータに適用できる
差分プライバシーは、個人の記録を公開しないで分析を行う目的で、広告、医療、教育に関連する企業で利用されています。この技術はまた、一般データ保護規則(GDPR)、医療保険の相互運用性と説明責任に関する法律(HIPAA)、家庭教育の権利とプライバシーに関する法律(FERPA: Family Educational Rights and Privacy Act)、カリフォルニア州消費者プライバシー法(CCPA)を遵守する公共機関でも利用されています。
差分プライバシーでどんなことができますか?
差分プライバシーを使用すると、以下のことを行えます。
-
データを移動またはコピーせずに、個人の記録を再識別されないように保護する
-
プライバシーの漏洩およびデータの再識別を回避する
-
規制機関が好む匿名化基準の一つを使用する
BigQuery をご利用のお客様は、差分プライバシーを使用して以下のことを実施できます。
-
BigQuery データ クリーンルームで、プライバシーを保護しながらデータを共有する
-
BigQuery Omni を使用した AWS および Azure のデータに対するクエリの結果を匿名化する
-
匿名化された結果を Apache Spark ストアド プロシージャおよび Dataform パイプラインと共有して、他のアプリケーションで使用できるようにする
-
Google Cloud パートナーである Gretel.ai および Tumult Analytics のテクノロジーを使用して、差分プライバシー機能を強化する
-
PipelineDP.io などのフレームワークを呼び出す
BigQuery 差分プライバシーとは、具体的にどのようなものですか?
BigQuery 差分プライバシーには以下の 3 つの機能が含まれます。
-
GoogleSQL での差分プライバシー – GoogleSQL で差分プライバシーの集計関数を直接使用できます。
-
BigQuery データ クリーンルームでの差分プライバシー – 差分プライバシーの分析ルールを適用して、共有データに対するすべてのクエリにおいて、GoogleSQL でパラメータを指定したうえで差分プライバシーを実施できます。
-
BigQuery データ クリーンルームにおけるパラメータ駆動型のプライバシー バジェット – 差分プライバシーの分析ルールを適用する際、プライバシー バジェットを設定して、共有データのクエリ時に公開されるデータを制限することができます。BigQuery では、パラメータ駆動型のプライバシー バジェットを使用できるため、クエリのしきい値よりもきめ細かく制御できるほか、プライバシー バジェットを使い切った場合、そのデータに対してクエリはできなくなります。
BigQuery 差分プライバシーの活用例
BigQuery データ クリーンルームにデータを追加する際に、差分プライバシーの分析ルールを適用し、プライバシー バジェットを構成する方法をご紹介します。


このデータ クリーンルームのサブスクライバーは次に、差分プライバシーを使用して共有データに対してクエリを実行する必要があります。


このデータ クリーンルームのサブスクライバーは、プライバシー バジェットを使い切った場合に共有データに対してクエリを実行できなくなります。


BigQuery 差分プライバシーの利用を開始する
BigQuery 差分プライバシーは、データオーナーまたはデータ提供者が BigQuery データ クリーンルームでデータを共有したときに構成します。データオーナーまたはデータ提供者の場合、どのコンピューティング料金モデルでもデータを共有でき、そのデータに対してサブスクライバーがクエリを実行しても料金は発生しません。一方、データ クリーンルームのサブスクライバーの場合、差分プライバシーの分析ルールに基づいて保護されている共有データに対してクエリを実行すると、コンピューティング料金が発生します。このようなサブスクライバーは、オンデマンド料金(TB 単位の課金)または Enterprise Plus エディション(スロット時間単位の課金)を利用する必要があります。
すべてのクエリが差分プライバシーによって保護されるデータ クリーンルームを早速作成して、サポートが必要な場合はお知らせください。
-Google Cloud、グループ プロダクト マネージャー Magda Gianola
-Google Cloud、ソフトウェア エンジニア Anurag Peshne