コンテンツに移動
データ分析

クラウドにおけるデータ ガバナンス - パート 2 - ツール

2022年3月31日
Google Cloud Japan Team

※この投稿は米国時間 2022 年 3 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

この記事は 1 月に公開したデータ ガバナンス ブログシリーズのパート 2 です。このブログは、クラウドでデータ ガバナンスを実現するためのテクノロジーに焦点を当てています。

コーポレート ガバナンス ポリシーや専任の担当者とともに、データ ガバナンス プログラムを成功させるためには、ツールが必要です。データの保護、監査の実施と報告、データの発見、系統の追跡、モニタリングとアラートの自動化など、複数のテクノロジーを統合して、データのライフサイクルを管理します。

Google Cloud は、企業がデータを安全に管理し、ガバナンスを確保し、データの民主化を推進するための包括的なツールセットを提供します。これらのツールは、以下のカテゴリに分類されます。

データ セキュリティ

データ セキュリティは、データの生成、取得、送信、永久保存、廃棄の時点からデータを保護することを意味します。さまざまなツールに基づいた複数の戦略により、データ セキュリティを確保し、データがデータ パイプラインを移動する際に脆弱性を特定し、修正します。

Google Cloud の Security Command Center は、脆弱性や脅威を一元的にレポートするサービスです。Security Command Center は、Google Cloud Platform に組み込まれたセキュリティ管理ツールで、企業が脆弱性や脅威を防止、検出、是正することを支援します。Security Command Center は、Google Cloud アセットのセキュリティとコンプライアンスの構成ミスを特定し、問題を解決するための実用的な推奨事項を提供できます。

データ暗号化

Google Cloud 上のすべてのデータは、転送中も保存中もデフォルトで暗号化されています。VM 間のトラフィック、BigQuery、サーバーレス Spark、Cloud Functions へのクライアント接続、VPC 内の Google Cloud の他のすべてのサービスへの通信、およびピアリングされた VPC 間の通信はすべて、デフォルトで暗号化されています。

Cloud KMS では、デフォルトで提供される暗号化に加え、お客様が独自に暗号鍵を管理することも可能です。クライアントサイド暗号化では、お客様は暗号鍵を常に完全に管理できます。

データ マスキングとトークン化

データの暗号化により、データは暗号化されてから保存や移動が行われます。しかし、エンドユーザーがデータベースへの問い合わせやファイルの読み取りを行う際には、センシティブ データを見ることが可能なままになります。いくつかのコンプライアンス規制では、機密データの非識別化またはトークン化を義務付けています。たとえば、GDPR はデータ対象者のリスクを低減するためにデータの仮名化を推奨しています。匿名化されたデータは、データ処理と使用に関する組織の義務を軽減します。トークン化とは、クレジット カードの認証などのデータ処理を、実際のクレジット カード番号を知らなくても行えるようにするためのデータ難読化手法の一つです。トークン化は、データの元の値をユニークなトークンに置き換えます。トークン化と暗号化との違いは、鍵を使って暗号化されたデータは同じ鍵で解読できるのに対し、トークンではトークン化サーバーで元のデータにマッピングされるという点です。トークン サーバーにアクセスできないデータトークンは、不正な行為者がトークンにアクセスしても、元の値を解読できません。

Google の Cloud Data Loss Prevention(DLP)は、データ マスキングやトークン化などの手法を用いて、データ内の機密情報を自動的に検出、難読化、匿名化します。データ パイプラインの構築やクラウドへのデータ移行を行う場合、Cloud DLP を統合してセンシティブ データを自動的に検出、匿名化、トークン化し、データ サイエンティストやユーザーがコンプライアンス違反のリスクを最小限に抑えながらモデルやレポートを構築できるようにします。

細分化されたアクセス制御

BigQuery は、Google Cloud 上のデータに対して、きめ細かいアクセス制御を行うことができます。BigQuery のアクセス制御ポリシーを作成し、BigQuery のおよび行レベルの制御でアクセスを制限できます。列と行レベルのアクセス制御を DLP と組み合わせることで、データの安全な(マスクされた、または暗号化された)バージョンとデータの明確なバージョンを持つデータセットを作成できます。これにより、データの民主化が促進され、CDO は Google Cloud のガードレールを信頼して、ユーザー ID に応じた正しいアクセスを許可し、監査ログを伴う記録システムを確保できます。センシティブ データに不正にアクセスできないようにしながら、データを組織全体で共有し、分析の実行や機械学習モデルを構築することが可能です。

データの検出、分類およびデータ共有 

データドリブン型の組織を効果的に実現するためには、データを簡単に見つけることができることが重要です。データ ガバナンス プログラムは、Data Catalog を活用して、すべてのメタデータのエンタープライズ リポジトリを作成します。これらのカタログにより、データ スチュワードやデータユーザーは、カスタム メタデータの追加、ビジネス用語集の作成、データ アナリストや科学者が組織全体で分析するためのデータを検索できるようになります。Data Catalog によっては、データ スチュワードが作成したポリシーに基づいて承認または拒否されるデータへのアクセスを、カタログ内でユーザーがリクエストすることも可能です。

Google Cloud は、メタデータを一元管理し、データの検出をサポートするために、フルマネージドでスケーラブルな Data Catalog を提供します。Google の Data Catalog は、ユーザーがデータに対して持っているのと同じアクセス制御に準拠します(したがって、ユーザーはアクセスできないデータを検索することはできません)。さらに、Google の Data Catalog は GCP のデータ ファブリックにネイティブにインテグレーションされており、新しいデータセットをカタログに手動で登録する必要はありません。ウェブ検索と同じ「検索」技術によって、新しく作成されたデータのインデックスが自動的に作成されます。

さらに、Google Partners は Collibra や Informatica などの主要なデータ ガバナンス プラットフォームと提携し、オンプレミスおよびマルチクラウドのデータ エコシステムを統合的にサポートしています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Data_governance.max-2000x2000.jpg

データ系列

データ系列は、データソースをさかのぼることを可能にし、データ サイエンティストはモデルが慎重に調達されたデータでトレーニングされていることを確認できます。データ エンジニアは既知のデータソースからより良いダッシュボードを構築でき、データソースから派生物にポリシーを継承できます(したがって、センシティブ データソースが ML モデルの作成に使用されている場合、その ML モデルもセンシティブとラベルを付けることができます)。

データをソースまでトレースし、データ パイプラインの進行に伴って行われたすべての変更のログを残すことができるため、データオーナーはデータの状況を明確に把握できます。データ系列でトラックされていないデータを特定し、確立されたガバナンスとコントロールの下に置くための対応が容易になります。データがオンプレミス、クラウド、マルチクラウド環境に分散している場合、一元化された系列トラッキング プラットフォームにより、データがどこで発生し、組織内でどのように移動しているかを確認できます。費用管理、コンプライアンス、データ重複の削減、データ品質の向上のためには、系列のトラッキングが不可欠です。

Google Cloud の Data Fusion は、エンドツーエンドのデータ系列を提供し、ガバナンスとコンプライアンスの確保を支援します。Cloud Audit Logs、Data Catalog、Pub/SubDataflow を利用して、BigQuery のデータ系列システムを構築することも可能です。系列システムを構築するアーキテクチャについては、ここで説明されています。さらに、Google の豊富なパートナー エコシステムには、Collibra などオンプレミスおよびハイブリッド クラウド向けにデータ系列機能を提供するマーケット リーダーが含まれています。また、Apache Atlas などのオープンソース システムを導入することで、Google Cloud のメタデータを収集し、系列をトラッキングできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Data_governance.max-2000x2000.jpg

監査

監査の目的で、すべてのデータアクセス記録を保管することは重要です。監査には、内部監査と外部監査があります。内部監査では、組織がすべてのコンプライアンス基準を満たしていることを確認し、必要であれば対応します。もし組織が規制された業界で活動している場合や、個人情報を保管している場合、監査記録を残すことはコンプライアンス上の必要条件となります。

Google の Cloud Audit Logs は Google Cloud における監査のコンプライアンスを確保し、「誰が、どこで、いつ、何を Google Cloud サービス全体でしたのか」という質問に答えます。Cloud Logging(旧 Stackdriver)は、インフラストラクチャとアプリケーションからのすべてのログデータを一か所に集約します。Cloud Logging は Google Cloud のサービスから自動的にデータを収集し、Cloud Logging エージェント、FluentD、または Cloud Logging API を使ってアプリケーション ログをフィードできます。Cloud Logging のログは、GCS に転送してアーカイブすること、BigQuery に転送して解析すること、Pub/Sub にストリーミングして外部のサードパーティ システムとログを共有することが可能です。

最後に、Cloud Log Explorer では、ログの取得、解析、分析を簡単に行うことができ、ダッシュボードを構築してログのデータをリアルタイムに監視できます。

データ品質

データを意思決定プロセスに組み込む前に、組織はデータが確立された品質基準を満たしていることを確認する必要があります。これらの標準は、それぞれのデータドメインのデータ スチュワードによって作成されます。

Trifacta の Google Dataprep は、データを探索し、データ分布を可視化するためのフレンドリーなユーザー インターフェースを提供します。ビジネス ユーザーは、データを分析に使用する前に、Dataprep を使用して外れ値、重複値、欠損値を迅速に特定できます。

GCP の Dataplex は、Dataplex サーバーレス インフラストラクチャ上で実行可能な宣言型ルールにより、データ品質評価を可能にします。データオーナーは、重複するレコードの検索、完全性、正確性、有効性(将来の取引日を使用しないなど)を保証するルールを作成できます。データオーナーは、Dataplex のスケジューラーを使用してチェックをスケジュールすることや、API を使用してパイプラインに含めることができます。データ品質指標は BigQuery テーブルに保存され、Cloud Logging で利用できるようになり、さらなるダッシュボード化と自動化が可能になります。

さらに、Google の豊富なパートナー エコシステムには、Informatica や Collibra など、データ品質ソフトウェアの主要プロバイダが含まれています。データ品質ツールは、オンプレミス、クラウド、マルチクラウドのデータ パイプラインをモニタリングして品質問題を特定し、品質の低いデータを隔離または修正するために使用します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Data_governance.max-2000x2000.jpg

分析のエクスチェンジ

データの民主化を目指す企業には、データ分析資産を簡単に共有し、交換するためのプラットフォームが必要です。あるチームが作ったダッシュボードやレポート、モデルが、他のチームにとっても有用であることはよくあります。大規模な組織では、これらの資産を簡単に発見し共有する方法がないため、作業が重複し、費用と時間のロスにつながります。分析資産を交換することで、チームはデータの問題を発見し、信頼性とデータの品質を向上できます。また、外部のパートナーとの分析資産のエクスチェンジを希望する企業も増えています。これを利用して、ベンダーと費用交渉をすることや、場合によってはキャッシュフローを生み出すことも可能です。

Analytics Hub は、企業が保有する分析資産を安全に共有し、登録することを可能にします。Analytics Hub は、データを民主化し、組織全体のあらゆる意思決定にデータを組み込もうとする組織にとって、非常に重要なツールです。

コンプライアンスに関する認定

企業がデータをクラウドに移行する前に、すべてのコンプライアンス要件が満たされていることを確認する必要があります。たとえば、カリフォルニア州では CCPA、ヨーロッパでは GDPR、ブラジルでは LGPD に準拠する必要があるなど、組織が活動している地域によって、規制への準拠が求められることがあります。また、銀行は PCI DSS、医療は HIPAA、米国連邦政府と仕事をする場合は FedRAMP など、組織は特定の業界による規制を受けています。

Google Cloud は、地域や業界に特化した 100 以上のコンプライアンス証明書を取得しています。Google は、規制やコンプライアンスに関する証明書を継続的に追加しています。専任のコンプライアンス チームが、お客様が Google Cloud にデータを移行し、オンボーディングする際にコンプライアンスを確保できるように支援します。

結論

Dataplex を使用してデータ ガバナンスのジャーニーを始める: 組織全体のデータを一元的に管理し、統制するための Google のソリューションデータ民主化の実施に向けて、分析資産を簡単に共有できるデータ分析のエクスチェンジを構築するために、Analytics Hub をご検討ください。セキュリティはすべての Google プロダクトに組み込まれており、世界各国、各業界のコンプライアンス証明書により、クラウドへのデータ移行が容易になっています。すでにクラウドのジャーニーを始めている方は、ネイティブ Google Cloud と GCP のパートナー プロダクトを使用することで、高品質のデータ、センシティブ データの属性への安全なアクセスを確保できます。

詳細情報:

Google のデータ ガバナンス リーダーは、ベスト プラクティスとデータ ガバナンスの学習内容を O’Reilly の出版物にまとめました: データ ガバナンス、決定版ガイド



- Google Cloud カスタマー エンジニア Imad Qureshi
投稿先