データ分析

金融サービスを対象とする、Google Cloud でのデータガバナンスの構成要素

2022年9月12日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 9 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。

データガバナンスには、人員、プロセス、テクノロジーが関わります。これらの要素によって組織は次のような項目を通じて検証し、管理できるようになります。

データとパイプラインのライフサイクル管理、マスターデータ管理を含むデータ管理
監査とコンプライアンスのほか、データアクセス管理、データマスキング、暗号化におよぶデータ保護
データカタログ、データ品質保証、データ系列登録、管理を含むデータの検出可能性
データユーザーの特定、ポリシー管理の要件を含むデータアカウンタビリティ

望ましい形に企業文化を変革し、運用の効果と効率を高めるプロセスを実現するために従業員への投資を優先することは、企業にとって有益である一方、ユーザーがデータを操作して組織がデータイニシアチブを真に管理できるようにする重要なイネーブラーはテクノロジーの柱にほかなりません。

金融サービス機関はセキュリティ、規制遵守、一般的な堅牢性に関して、特に厳しいデータガバナンス要件に直面しています。人員が調整され、プロセスが定義されると、テクノロジーの課題が明らかになります。ここでは、既存のガバナンスプロセスを補完できる柔軟性があり、データアセット全体での統一性によってデータ管理を簡素化できるソリューションが必要になります。

次のセクションでは、まず金融サービスでのデータガバナンスの実装に関する標準的な要件を確認し、それらの要件が Google Cloud サービス、オープンソースリソース、サードパーティのサービスにどう当てはまるのかについて見ていきます。世界クラスの金融サービス機関でデータガバナンスソリューションを実装した経験に基づいて、データライフサイクル全体をサポートできるアーキテクチャを紹介します。

データ管理

まずデータ管理の側面を確認し、テクノロジーの観点から Google Cloud の関連するサービスおよび機能とともに、最も一般的な要件のいくつかをまとめました。

	データ管理の要件	サービスと機能
データとパイプラインのライフサイクル管理	バッチ取り込み: データパイプライン管理、スケジュール設定、データパイプライン処理の記録ストリーミングパイプライン: メタデータデータライフサイクル管理状態と統計メタデータの両方が含まれるオペレーショナルメタデータ	総合的なエンドツーエンドのデータプラットフォーム GCS オブジェクトライフサイクル BigQuery データライフサイクル Data Fusion パイプラインライフサイクル管理、オーケストレーション、調整、メタデータ管理 Dataplex インテリジェント自動化データライフサイクル管理 Cloud Logging、Cloud Monitoring Informatica Axon データガバナンス
コンプライアンス	規制要件の遵守を容易にする	簡単に拡張可能で、IAM、CMEK、BQ 列レベルアクセス制御、BQ テーブル ACL、データマスキング、承認済みビュー、DLP PII データを使用したセキュリティ管理の実装を通じて CCPA、HIPAA, PCI、SOX、GDPR の遵守を容易に識別とポリシータグ DCAM データと分析評価フレームワーク CDMC のベストプラクティスの評価と認定
マスターデータ管理	疑わしい処理ルールの重複ソリューションと部門の範囲	Enterprise Knowledge Graph KG エンティティ解決 / 調整および金融犯罪記録照合 MDM + ML Tamr クラウドネイティブマスターデータ管理
サイトの信頼性	データパイプラインの SLA 保存データの SLA	データパイプラインに適用される SLA データを管理するサービスに適用される SLA データ向けの DR 戦略

データパイプラインの登録、作成、スケジュール設定は、組織が繰り返し直面する課題です。同様に、データライフサイクル管理は総合的なデータガバナンス戦略の要になります。

Google Cloud は、統合済みでオーケストレーションとカタログ化を簡単に行える、それぞれのニーズに合った複数のデータ処理エンジンとデータストレージオプションを提供します。

データ保護

金融機関は、定義済みの社内プロセスに対応し、規制要件の遵守に役立つ世界水準のデータ保護サービスと機能を求めています。

データ保護の要件

サービスと機能

データのアクセス管理

アクセスポリシーの定義

マルチクラウド承認ワークフローの統合*

アクセス承認

IAM および ACL、詳細な GCS アクセス
行レベル、列レベルのアクセス権限
BigQuery のセキュリティ

階層的なリソースとポリシー

ユーザー、認証、セキュリティ（2 要素認証）、認可
リソース、区切り境界線、組織のポリシー、請求と割り当て、ネットワーキング、モニタリング

Event Threat Detection

サードパーティのマルチクラウド承認ワークフロー - Collibra*

データの監査とコンプライアンス

オペレーショナルメタデータログキャプチャ

プロセス障害アラートと根本原因の特定

Cloud Audit Logs

Security Command Center

アクセスの透明性とアクセスの承認

StackDriver Logging

Collibra 監査ロギング

セキュリティの状況

データの脆弱性の特定

セキュリティヘルスチェック

Security Health Analytics

データのマスキングと暗号化

ストレージレベルの暗号化メタデータ

アプリケーションレベルの暗号化メタデータ

個人情報（PII）データの識別とタグ付け

保存データの暗号化、転送データの暗号化、KMS

Cloud DLP 変換、匿名化

アクセス管理はデータとパイプラインの監査とともに一般的な要件で、すべてのデータアセット全体で管理されるべきです。こうしたセキュリティ要件は通常、セキュリティヘルスチェックと自動修復プロセスでサポートされます。

データ保護の場合は特に、データのマスキング、データ暗号化、個人情報（PII）データ管理などが、処理パイプラインに組み込まれた機能として利用でき、ポリシーとして定義、管理されるべきでしょう。

データの検出可能性

データを見れば、組織が行っていることや、それがユーザー、競合他社、規制機関にどのように関連しているかを確認できます。そのため、データの検出可能性機能は金融機関にとって重要です。

	データの検出可能性の要件	サービスと機能
データのカタログ化	データカタログストレージメタデータタグのフィールドへの関連付けデータ分類メタデータ登録スキーマバージョン管理データ読み込み前のスキーマの定義	Data Catalog 列レベルのタグ Dataplex 論理的集約体（レイク、ゾーン、アセット） DLP Collibra Catalog Collibra アセットバージョン管理 Collibra アセットタイプの作成とアセットの事前登録 Alation Data Catalog Informatica Enterprise Data Catalog
データ品質	取り込み時のデータ品質ルールの定義（各列の正規表現の確認など）問題解決ライフサイクル管理	BigQuery DQ Dataplex Dataprep でのデータ品質 Collibra DQ Alation Data Quality CloudDQ 宣言型データ品質確認（CLI）* Informatica Data Quality
データ系列	ストレージと属性レベルのデータ系列マルチクラウド / オンプレミスの系列	Cloud Data Fusion のデータ系列フローを理解データの流れを細かく表示運用ビュー開放性または系列の共有 Data Catalog および BigQuery Collibra Lineage マルチクラウド / オンプレミス管理 Alation Data Lineage
データ分類	データ検出とデータ分類メタデータ登録	DLP 検出と分類 90 以上の分類子: 個人情報（PII）を含むカスタム分類子

データカタログはデータガバナンス戦略の大部分が構築される基盤です。データを検出できるようにするには自動分類オプション、データ系列登録、管理機能が必要になります。Dataplex はフルマネージド型のデータ検出、メタデータ管理サービスです。複数のストレージターゲットに分散したすべてのデータアセットで統合的にデータを検出できます。このプロダクトでは、ビジネスメタデータにアノテーションを付けて、Google Cloud 内で必要なデータガバナンス基盤を使用することができます。また、マルチクラウドやエンタープライズレベルのカタログによって、外部メタデータと後で統合可能なメタデータも提供されます。Collibra Catalog は Google Cloud で利用できるエンタープライズデータカタログの一つです。ガバナンスのビジネス層と論理層を含む運用モデル、フェデレーション、マルチクラウドとオンプレミス環境でのカタログ化などのエンタープライズ機能によって、Dataplex を補完します。

データ品質の保証と自動化は、データの検出可能性の 2 番目の基盤になります。これに役立つ Dataprep はプロセスの評価、修正、検証を行うツールで、宣言型かつスケーラブルなデータ品質検証コマンドラインインターフェースの Cloud Data Quality Engine など、カスタマイズされたデータ品質ライブラリと一緒に使用できます。Collibra DQ はもう一つのデータ品質評価ツールで、機械学習を使ってデータ品質に関する問題の特定やデータ品質ルールの提案を行うほか、検出可能性の向上を図ります。

データのアカウンタビリティ

データのオーナー、管理者、スチュワード、ユーザーを特定し、関連するメタデータを効果的に管理することで、組織は信頼できる安全な方法でデータを使用できるようになります。以下は、データアカウンタビリティに関する最も一般的な要件と、それらを満たすために使用できるツールとサービスです。

	データアカウンタビリティの要件	サービスと機能
データユーザーの特定	データオーナーとデータセットがリンクされた登録データスチュワードとデータセットがリンクされた登録ユーザーロールに基づくデータ使用量のロギング	Dataplex Data Catalog Analytics Hub Collibra Data Stewardship Alation データスチュワードシップ
ポリシー管理	ドメインに基づくポリシー管理列レベルのポリシー管理	Cloud DLP Dataplex ポリシータグ BigQuery の列レベルのセキュリティ Collibra ポリシー管理
ドメインに基づくアカウンタビリティ	管理されるデータの共有	IAM と ACL のロールに基づくアクセス Analytics Hub

データを取り巻く環境の全体で、一元化された Identity and Access Management ソリューションを備えることは、データセキュリティ戦略を定義するうえでの重要な促進剤となります。ここでは主な機能として、ユーザー識別、ロールベースおよびドメインベースのアクセスポリシー管理、ポリシー管理型データアクセス認証ワークフローが必要でしょう。

データガバナンスの業界基準を満たす構成要素

Google ではこうした機能を踏まえ、マルチクラウドの一元化されたガバナンス環境を実現するリファレンスアーキテクチャを提供しています。これにより、金融サービス機関はそれぞれの要件を満たせるようになります。ここではデータガバナンスのテクノロジーの柱に重点を置いていますが、人員の足並みが揃っておりプロセスもしっかりと定義されていることが重要です。

次のアーキテクチャは、上記の要件を完全に網羅することは意図していないものの、テクノロジーの柱については、このブログの執筆時点で可能な限り業界基準を満たすための、データガバナンス実装の核となる要素で構成されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Cloud_for_financial_services.max-2000x2000.jpg

1. データのカタログ化はあらゆるデータガバナンステクノロジーの取り組みの心臓部になります。金融機関は多くの場合、複数のクラウドプロバイダとオンプレミスに存在するストレージシステムに対応する必要があります。エンタープライズレベルのカタログである「総合カタログ」は、組織内のすべてのデータアセットを一元化して発見できるようにするもので、どこにあるデータも最大限に活用できるようになります。

これについては、Google Data Catalog がオープンソースのコネクタを通じて Google Cloud 以外のデータアセットをサポートしているものの、複数のストレージシステムやメタデータ管理の追加レイヤが提供されるサードパーティのカタログ化ソリューション（Collibra など）が適している場合もあります。たとえば、これによってデータアセットがストレージで利用可能になる前に事前登録を行い、実際のテーブルやファイルセットが作成されたら、スキーマの進化の追跡を含めてそれらのテーブルやファイルセットを統合できるようになります。

2. Google Cloud の観点から検出、カタログ化、保護されるデータは、Cloud Storage のデータレイクまたはランディングゾーン、BigQuery のエンタープライズデータウェアハウス、BigTable のような高スループットで低レイテンシのデータストア、さらには Spanner、CloudSQL、Firestore でサポートされるリレーショナルデータベースや NoSQL データベースなどに格納されています。

タグなどの Cloud Data Catalog メタデータの収集は、複数の段階で実施されます。金融機関は信頼できる完全なメタデータを獲得するために、可能な限り標準化と自動化を進める必要があります。Data Catalog へのラベルの入力には、Cloud Data Loss Prevention（DLP）APIが重要な役割を果たします。ここでは、DLP 検査テンプレートと検査ジョブを使って、データへのタグ付けの標準化、データのサンプリングと検出、最後にテーブルとファイルセットへのタグ付けが行われます。

処理するデータの機密性を踏まえると、金融機関にとってその他の大きな懸念事項はセキュリティとアクセス制御であり、通常は複数の暗号化とマスキングレイヤがデータに適用されます。こうしたシナリオでは、追加するラベルを判断するためのデータのサンプリングと読み込みは少々複雑なプロセスとなり、復号が必要になります。

BigQuery で列レベルのポリシータグを適用する場合などには、Cloud Data Catalog を使ってタグ付けジョブにアクセスできる中間ストレージに、DLP 検査ジョブの結果を公開する必要があります。このような場合は、必要な復号とタグ付けを Dataflow ジョブで処理できます。こちらから詳細な手順を示したコミュニティチュートリアルをご覧ください。

膨大なデータセットにある適切なデータに適切な人員がアクセスできるようにするのは、困難な場合があります。IAM アクセス管理とポリシー分類タグは、このニーズに対応します。

Google Cloud の Dataplex サービス（後述）では、動的スキーマ検出を使ってデータの検出と分類を自動化できます。メタデータは Data Catalog で最終的に使用される前に、Dataproc Metastore や BigQuery に自動的に登録されます。

3. 経時的なデータの発生、移動、変換について理解するには、データ系列システムが不可欠です。このシステムにより、系列の記録を保存してアクセスできるようになります。また、データパイプラインのエラーを特定する信頼性の高いトレーサビリティも確保されます。金融機関の大規模なデータウェアハウス環境では、自動化されたデータ系列記録システムによりユーザーのデータガバナンスを簡素化できます。

金融機関はコンプライアンスと監査可能性の基準を満たし、アクセスポリシーを適用して、品質の低いデータやパイプライン障害の根本原因分析を実施する必要があります。その際、Cloud Data Catalog Lineage と Cloud Data Fusion Lineage のトレーサビリティ機能が役に立ちます。

4. Dataplex はデータガバナンスに関する Google Cloud のビジョンの基礎となる部分です。Dataplex はデータ管理を結合、自動化するインテリジェントなデータファブリックで、分析処理のジョブを簡単かつグラフィカルに管理できます。このプロダクトは、金融機関がデータとパイプラインのライフサイクル管理に関する複雑な要件を満たすのに役立ちます。

Dataplex では、レイク、ゾーン、アセットと呼ばれる論理的な集約体にデータを整理できます。アセットは、Cloud Storage のファイルや BigQuery のテーブルに直接関連付けられ、論理的にゾーンにグループ化されます。ゾーンには Raw、Refined、Analytics などの一般的なデータレイク実装ゾーンや、セールスや金融などビジネスドメインに基づくゾーンがあります。ユーザーはそうした論理的な構成の上に、データアセット全体のセキュリティポリシー（詳細なアクセス制御など）を定義できます。この方法により、データオーナーは権限を付与できる一方で、データマネージャーは付与された権限をモニタリング、監査できます。

クラウドでデータガバナンス戦略を構築

金融データガバナンスを実装し、データの信頼性を高めて規制要件を満たすには、プロセスを構築して人員の足並みを揃えるための、強固で柔軟性の高いテクノロジーの柱が不可欠です。Google Cloud を使用すると、総合的なデータガバナンス戦略を作成すると同時に、特定の業界ニーズを満たすサードパーティ機能も追加できます。

詳しくは、以下をご参照ください。