クラウドにおけるデータ ガバナンス - パート 1 - 個人とプロセス
Google Cloud Japan Team
※この投稿は米国時間 2022 年 1 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
このブログでは、クラウドでのデータ管理に関連したデータ ガバナンスを取り上げます。オンプレミス、クラウドを問わず、テクノロジーに依存しない運用モデル、ガバナンスを確保するためのプロセス、そして最後にクラウドでデータ ガバナンスを確保するためのテクノロジーについて説明します。今回はデータ ガバナンスに関するブログを 2 回に分けてご紹介します。パート 1 では、データ ガバナンスの役割、データ ガバナンスが重要である理由、効果的なデータ ガバナンス プログラムを実行するために必要なプロセスについて説明します。
パート 2 では、データ ガバナンス プロセスを実現するために利用できるツールやテクノロジー(データ品質、データの検出、リネージの追跡、セキュリティなど)について紹介します。
データ ガバナンスに関する詳細かつ包括的なテキストについては、Data Governance: People, Processes, and Tools to Operationalize Data Trustworthiness をご覧ください。
データ ガバナンスとは
データ ガバナンスは、高いデータ品質を確保するためのプロセスを導入することで組織の価値を創造するデータ マネジメントの機能であり、組織全体で安全にデータを共有し、あらゆる規制へのコンプライアンスを確保することを容易にするプラットフォームを提供します。
データ ガバナンスの目標は、データから得られる価値を最大化し、ユーザーの信頼を築き、必要なセキュリティ対策を実施してコンプライアンスを確保することにあります。
データ ガバナンスは、データが収集または生成された時点から、データが破棄される時点まで実施される必要があります。データ ガバナンスでは、このようなデータのライフサイクル全体の中で、すべての関係者が容易にアクセスできる形でデータを利用できるようにし、望ましいビジネス成果(分析情報、分析)を生み出す方法で利用できるようにすること、また関連する場合には規制基準に適合させることを重視しています。これらの規制基準は、多くの場合、業界(医療など)、政府(プライバシーなど)、企業(無所属など)の規則や行動規範が交錯しています。詳しくはこちらをご覧ください。
データ ガバナンスが重要な理由
この 10 年で、ユーザーが携帯電話、健康 / フィットネス、IoT デバイス、小売店のビーコンなどを使用して生成されたデータの量は急激に増加しています。同時に、クラウドによって、データの収集、保存、分析が低コストで簡単にできるようになりました。データ量の増加とクラウドの導入が進むにつれ、企業は、データを民主化し、すべての意思決定に組み込む一方で、データのセキュリティを確保し、不正使用から保護するという 2 つの課題に直面しています。
組織をデータドリブンにする一方で、データが不正に使用されないように保護するという、この 2 つの使命を実行するためには、効果的なデータ ガバナンス プログラムが必要です。効果的なデータ ガバナンス プログラムを持たない組織は、罰金につながるコンプライアンス違反、ビジネス上の意思決定に影響を与える分析情報の低下につながるデータ品質の低下、分析の遅れやビジネス チャンスの逸失につながるデータ検索の課題、モデルの精度を低下させる AI 用データモデルのトレーニング不足、AI を使用するメリットの低下などに悩まされることになります。
効果的なデータ ガバナンス戦略には、個人、プロセス、ツールとテクノロジーが含まれます。データの民主化を推進し、すべての意思決定にデータを組み込むことで、ユーザーの信頼を築き、ブランド価値を高め、多額の罰金につながるコンプライアンス違反の可能性を減らし、ビジネスの損失を防ぐことができます。
データ ガバナンスのコンポーネント
データ ガバナンスを担う人々とロール
包括的なデータ ガバナンス プログラムは、組織内の各ビジネス ユニットを代表するリーダーで構成されるデータ ガバナンス議会から始まります。この議会では、ビジネス上の意思決定を行うためにデータをどのように使用するかについて、高レベルの主要な原則を確立します。議会は、各ビジネス機能のキーパーソンの協力を得て、顧客、プロダクト、患者、提供者などのデータドメインを特定します。その後、議会は各データドメインに対して、データオーナー権限とスチュワードシップのロールを割り当てます。これらはシニアレベルのロールであり、各オーナーはデータ ガバナンス議会が設定したデータ目標を推進するために責任を負い、それに応じて報酬を与えられます。例えば、顧客データのオーナーはマーケティングや営業担当者、財務データのオーナーは財務担当者、人事データのオーナーは人事担当者といったように、データオーナーやスチュワードはビジネスの現場から割り当てられます。
IT 部門のロールは、データ管理者です。IT 部門は、データオーナーが指定したポリシーに従って、データの取得、保護、保存、共有を確実に行います。データ管理者である IT チームは、データへのアクセスやデータの共有に関する決定を下すことはありません。IT 部門のロールは、データオーナーが設定したデータ管理ポリシーの実施をサポートするための技術管理に限定されています。
データ ガバナンスにおけるプロセス
各組織は、データ ガバナンス議会が設定した目標の実施に向けて、プロセスを確立します。このプロセスは、データオーナーとデータ スチュワードが、それぞれのデータドメインのために確立します。このプロセスでは、以下のハイレベルな目標に焦点を当てています。
1. データが指定された データ品質基準を満たしていること(例: 98% の完全性、0.1% 以下の重複値、異なるテーブル間で 99.99% の一貫性のあるデータ、時間通りの配達の構成要素など)
2. 内部および外部のポリシーを遵守するためのデータ セキュリティ ポリシー
データの暗号化を保存時と通信時に行う
データへのアクセスは許可されたユーザーのみに限定される
すべてのセンシティブ データ項目は削除または暗号化され、許可されたユーザーのみが動的に復号される
データは、決定論的な暗号化やハッシュ化などを用いて、非識別化された形式で分析のために結合できる
承認されたアクセスと未承認の試行の両方を監査できる
3. 外部パートナーとのデータ共有は、API を介して安全に利用可能
4. HIPAA、PCI DSS、GDPR、CCPA、LGPD などの業界および地域特有の規制へのコンプライアンス
5. データの複製を最小限に抑えられる
6. データカタログによるデータユーザーの一元的なデータ探索
7. データ品質の問題、データ複製ソースを特定するためのデータリネージの追跡、および監査の支援
テクノロジー
データ ガバナンス プログラムで規定されたプロセスを実行するには、テクノロジーの活用が必要です。データの保護、監査の保存と報告、モニタリングとアラートの自動化など、複数の技術を統合してデータのライフサイクルを管理します。
Google Cloud では、包括的なツール群により、企業はデータを安全に管理し、データの民主化を推進できます。Data Catalog は、Google Cloud 上の一元化された場所から、ユーザーが簡単にデータを見つけることを可能にします。Data Fusion はリネージを追跡するので、データオーナーはデータのライフサイクルのあらゆる時点でデータを追跡し、データを破損している可能性のある問題を修正できます。Cloud Audit Logs は、コンプライアンスに必要な監査を保持します。Dataplex は、インテリジェントなデータ管理、一元化されたセキュリティとガバナンス、自動データの検出、メタデータ収集、ライフサイクル管理、および AI を活用したインテリジェンスを内蔵したデータ品質を提供します。
ガバナンスを実現するためのツールやテクノロジーの活用については、本ブログのパート 2 で紹介します。
- Google Cloud カスタマー エンジニア Imad Qureshi