Dataplex によるデータ監査、セキュリティ、アクセス管理の向上の仕組み
Google Cloud Japan Team
※この投稿は米国時間 2023 年 4 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。
データはどの企業にとっても最も重要なアセットの一つです。情報に基づいた意思決定、効率の向上、競争力の強化にはデータが欠かせませんが、データの管理にはデータの不正使用を防ぐ責任が伴います。特に規制の厳しい業界では、データの取り扱いを誤ると、金銭的にも風評的にも大きなダメージを受ける可能性があります。データの管理を誤ると、データ漏洩、承認されていないユーザーによるデータアクセス、予期せぬデータの削除などの悪影響が生じることがあります。
企業のデータを保護するには、複数の方法があります。暗号化、アクセス制御、データのバックアップなどです。暗号化とは、データを暗号テキストにエンコードするプロセスです。正しく行われると、承認されていないユーザーが適切な鍵なしにデータをデコードすることは不可能になります。アクセス制御とは、承認されたユーザーにのみデータへのアクセスを許可するプロセスです。そして、データ マネジメントに関するアクションを監査できるようにすることで、自社に影響を与える現行の規制を遵守していることを証明するとともに、自社の中核的な競争上の優位性を保護することができます。
重要なのは、企業に適したセキュリティ ソリューションを選択することです。データ侵害によって生じる可能性のある費用とデータ保護に要する費用を比較検討する必要があります。データ セキュリティは継続的なプロセスです。セキュリティ プロセスやツールを定期的に見直し、更新することが大切です。
このブログ投稿では、Cloud DLP、Dataplex、Dataplex Catalog と Attribute Store を使用して、機密性の高いデータを検出、分類、保護する方法について説明します。このソリューションでは複雑で費用のかかるデータの取り扱いを自動化できるので、データを活用した顧客管理の強化に注力できます。
大部分の組織ではデータが定期的に収集され、次の 2 つのカテゴリに分類されます。
1. データの内容に応じて特定のポリシーを適用する必要がある機密性の高いデータ(銀行の口座番号、個人のメールアドレスなど)。これらのデータの分類は、一般的に次の基準で定義されています。
a)該当する規制または法令の要件
b)重要なセキュリティまたは復元力の要件
c)企業固有の要件(IP など)
2. 機密性の低いデータ
機密性の高いデータを保護し、業界のコンプライアンス要件を遵守するために、Google Cloud は次のツールの利用をおすすめします。
データ損失防止(Cloud DLP)は、デベロッパーおよびセキュリティ チームが Google Cloud サービスに保存しているデータを検出、分類、インベントリ化するのに役立ちます。これにより、不正なデータの引き出しやデータへのアクセスといった脅威からより適切に保護するために、データに関する分析情報を取得できます。Google Cloud DLP は、ハイブリッドなマルチクラウド環境のデータに一貫性のあるポリシーを適用する、統合型のデータ保護ソリューションを提供します。また、プロダクト間やサービス間でデータを共有または使用できるようにするために、データを匿名化、秘匿化、トークン化することもできます。
BigQuery は、Cloud DLP は機密データ検出サービスも提供します。組織全体、個々のフォルダ、または選択したプロジェクトにまたがるすべての BigQuery のテーブルと列を自動的にスキャンし、各テーブルおよび列のデータ プロファイルを作成します。これらのプロファイルには、予測される infoType、評価対象のデータのリスクと機密性レベル、列のサイズと形に関するメタデータなどの指標が含まれています。これらの分析情報を使用し、データを保護、共有、使用する方法に関して情報に基づいた意思決定を行います。
Dataplex は、Google Cloud 内のデータの管理と統制を支援する、フルマネージド データレイク サービスです。このスケーラブルなメタデータ管理サービスを活用すれば、Google Cloud 内のすべてのデータの迅速な検出、管理、把握、統制が可能になります。
Cloud DLP の検査ジョブは、Dataplex とネイティブに統合されています。Cloud DLP アクションを使用して BigQuery テーブルの機密データをスキャンすると、タグ テンプレートの形式で結果が直接 Data Catalog に送信されます。
このガイドでは、Cloud DLP の結果を Dataplex Catalog に送信するプロセスについて説明しています。
さらに、特定のデータをどのように扱うべきかを定義するために、Dataplex の Attribute Store を介してデータに属性を関連付ける機能も提供しています。この機能は、これまではドメインレベルでしか定義できなかったガバナンス ポリシーを、データを管理するためのアプローチに大きく転換するものです。これによりお客様は、個人を特定できる情報(PII データ)などのデータクラスを定義し、関連する PII 属性をマッピングし、関連するガバナンス ポリシーを定義することで、GDPR などの規制の遵守をサポートできるようになりました。
Google Cloud を利用することで、お客様は分散したデータを大規模に管理することができます。Dataplex では、アクセス制御ポリシーをテーブルや列にマッピングし、Cloud Storage や BigQuery のデータに適用することで、ポリシーの反映の効率を飛躍的に向上させることができます。
属性の設定方法に関する詳細なガイダンスについては、こちらをご覧ください。
Attribute Store(現在はプレビュー版)は、Dataplex で公開されたテーブル(Cloud Storage バケット内に Dataplex のアセットとしてマウント)をサポートしています。まもなく Attribute Store であらゆるテーブルに属性を適用できるようになる予定です。
以下にリファレンス アーキテクチャを示します。これは、データの説明を提供する Data Catalog タグと Attribute Store を組み合わせて使用してデータを保護するためのベスト プラクティスを説明するものです。


上の図を見ると、テーブルの列に情報タグ(Data Catalog を使用)と属性タグ(Attribute Store を使用)の両方が関連付けられていることがわかります。属性タグ付けは規模に応じたデータ保護の促進に役立ちます。Data Catalog ではタグを使用してデータを説明し、検索可能性を高めています。
なお、Data Catalog のタグはインデックスに登録されています。したがって、プロセスを開始するには、関連する Data Catalog のタグと属性に対して一致する DLP infoType を作成します。DLP が infoType と一致すると、Data Catalog タグが作成され、属性がそのデータに関連付けられます。
組織のデータを検出、分類、保護するこのアプローチを実装することにより、この非常に価値のあるアセットを適切に処理することができます。
次のステップ
詳しくは、Dataplex の技術ドキュメントを参照するか、Google Cloud セールスチームにお問い合わせください。
- テクニカル アカウント マネージャー Gerard Salvador López