セキュリティ & アイデンティティ

DLP を使用した BigQuery の自動データリスク管理

2022年6月28日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 4 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

センシティブデータの保護および意図しないデータ漏洩の防止は、企業にとって非常に重要です。しかし、多くの組織にはセンシティブデータが社内のどこにあるのかを常に把握するためのツールがありません。特に問題なのは、意外な場所にセンシティブデータが生じる場合です。たとえば、顧客がカスタマーサポートとのチャットにうっかりセンシティブデータを送信したり、組織が非構造化された分析ワークロードを管理したりする際に、サービスが生成するログにセンシティブデータが含まれる場合です。BigQuery 向け自動データ損失防止（DLP）機能が役立つのはこうした場面です。

データの検出や分類はオンデマンドで手作業によって行われることが多く、多くの組織では思うほど頻繁に実施できていません。大量のデータが常時生成される環境においては、検出や分類の機能を既存のデータ分析ツールに組み込むのが、効率的で現代的な方法です。自動化すれば、リスクを発見するための重要な対策が常に実行されていることになります。これは、Google Cloud の「見えないセキュリティ」戦略の一例です。自動 DLP は、組織全体のデータを継続的にスキャンするフルマネージドサービスです。これにより組織は、どんなデータがあるかを全般的に認識するとともに、センシティブデータが具体的にどこに保存され、処理されているかを把握できます。この認識は、データの保護と統制の重要な第一歩であり、セキュリティ、プライバシー、コンプライアンス対策を支える重要な管理手段として機能します。

昨年 10 月、Google は BigQuery 向け自動 DLP を発表しました。発表以来、導入企業は数ペタバイトの規模で BigQuery の構造化データと非構造化データのスキャンと処理を行うことで、どこにセンシティブデータがあるかを特定し、データリスクを可視化しています。この自動 DLP の一般提供を開始することは、Google にとって非常にうれしいことです。リリースの一環として、さらにデータの理解を容易にし、より多くの Cloud ワークフローで情報を活用するための新しい機能もいくつか追加しました。たとえば次のような機能です。

作成済みのデータポータルダッシュボード。ビジネスニーズに応じてカスタマイズできる高度なサマリー、レポート、調査ツールを備えています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Easy_to_understand_dashboards_give_a_quick.max-1200x1200.jpg

わかりやすいダッシュボードで BQ のデータの概要を把握

データのプロファイリングや再プロファイリングの頻度や条件を調整できるきめ細かい制御機能。データの特定のサブセットを他より高い頻度または低い頻度でスキャンしたり、プロファイリングから除外したりすることも可能です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Granular_settings_for_how_often_data_is_scan.max-600x600.jpg

データをスキャンする頻度の細かい設定

各テーブルの DLP プロファイラ情報とリスクスコアを Google のセキュリティ分析プラットフォームである Chronicle に自動同期する機能。Google は自社セキュリティポートフォリオの相乗効果の向上に努めており、今回のインテグレーションでは、アナリストが Chronicle を使用してインシデントに巻き込まれている可能性のある BQ データに高い価値があるかどうかを即座に把握できるようにしました。これは、脅威の検出、優先順位付け、セキュリティ調査の強化に大きく役立つ可能性があります。たとえば Chronicle が複数の攻撃を検出した場合、そのうち 1 つが機密性の高いデータを対象としていることがわかれば、最も緊急な脅威を優先して調査し、最初に対処できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Deep_native_integration_into_Chronicle_hel.max-1600x1600.jpg

Chronicle との緊密でネイティブなインテグレーションが検出と対応をスピードアップ

データ分類でデータリスクを抑制

一般に特に注意が必要なセンシティブデータには、クレジットカード、医療情報、社会保障番号、政府発行の ID、住所、フルネーム、アカウント認証情報などがあります。自動 DLP は、機械学習を利用するほか、150 以上の定義済み検出項目によってセンシティブデータを調査、分類、統制し、適切な保護対策を支援します。

センシティブデータを明確に把握できさえすれば、問題に対処したり、データリスクを全体的に減らしたりする方法は数多くあります。たとえば、IAM を使用してデータセットやテーブルへのアクセスを制限する、BigQuery ポリシータグを使用して詳細なアクセスポリシーを列レベルで設定するといった方法があります。Google の Cloud DLP プラットフォームには、詳細かつ徹底的なデータ検査をオンデマンドで実行する、またはデータの難読化、マスク、トークン化によって全体的なデータリスクを軽減するためのツール群も揃っています。分析や機械学習にデータを使用する際はこの機能が特に重要です。なぜなら、ユーザーのプライバシーやプライバシー規制へのコンプライアンスを確保するため、センシティブデータを適切に取り扱う必要があるためです。