データ分析

クラウドにおけるデータガバナンス - パート 1 - 個人とプロセス

2022年1月19日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 1 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

このブログでは、クラウドでのデータ管理に関連したデータガバナンスを取り上げます。オンプレミス、クラウドを問わず、テクノロジーに依存しない運用モデル、ガバナンスを確保するためのプロセス、そして最後にクラウドでデータガバナンスを確保するためのテクノロジーについて説明します。今回はデータガバナンスに関するブログを 2 回に分けてご紹介します。パート 1 では、データガバナンスの役割、データガバナンスが重要である理由、効果的なデータガバナンスプログラムを実行するために必要なプロセスについて説明します。

パート 2 では、データガバナンスプロセスを実現するために利用できるツールやテクノロジー（データ品質、データの検出、リネージの追跡、セキュリティなど）について紹介します。

データガバナンスに関する詳細かつ包括的なテキストについては、Data Governance: People, Processes, and Tools to Operationalize Data Trustworthiness をご覧ください。

データガバナンスとは

データガバナンスは、高いデータ品質を確保するためのプロセスを導入することで組織の価値を創造するデータマネジメントの機能であり、組織全体で安全にデータを共有し、あらゆる規制へのコンプライアンスを確保することを容易にするプラットフォームを提供します。

データガバナンスの目標は、データから得られる価値を最大化し、ユーザーの信頼を築き、必要なセキュリティ対策を実施してコンプライアンスを確保することにあります。

データガバナンスは、データが収集または生成された時点から、データが破棄される時点まで実施される必要があります。データガバナンスでは、このようなデータのライフサイクル全体の中で、すべての関係者が容易にアクセスできる形でデータを利用できるようにし、望ましいビジネス成果（分析情報、分析）を生み出す方法で利用できるようにすること、また関連する場合には規制基準に適合させることを重視しています。これらの規制基準は、多くの場合、業界（医療など）、政府（プライバシーなど）、企業（無所属など）の規則や行動規範が交錯しています。詳しくはこちらをご覧ください。

データガバナンスが重要な理由

この 10 年で、ユーザーが携帯電話、健康 / フィットネス、IoT デバイス、小売店のビーコンなどを使用して生成されたデータの量は急激に増加しています。同時に、クラウドによって、データの収集、保存、分析が低コストで簡単にできるようになりました。データ量の増加とクラウドの導入が進むにつれ、企業は、データを民主化し、すべての意思決定に組み込む一方で、データのセキュリティを確保し、不正使用から保護するという 2 つの課題に直面しています。

組織をデータドリブンにする一方で、データが不正に使用されないように保護するという、この 2 つの使命を実行するためには、効果的なデータガバナンスプログラムが必要です。効果的なデータガバナンスプログラムを持たない組織は、罰金につながるコンプライアンス違反、ビジネス上の意思決定に影響を与える分析情報の低下につながるデータ品質の低下、分析の遅れやビジネスチャンスの逸失につながるデータ検索の課題、モデルの精度を低下させる AI 用データモデルのトレーニング不足、AI を使用するメリットの低下などに悩まされることになります。

効果的なデータガバナンス戦略には、個人、プロセス、ツールとテクノロジーが含まれます。データの民主化を推進し、すべての意思決定にデータを組み込むことで、ユーザーの信頼を築き、ブランド価値を高め、多額の罰金につながるコンプライアンス違反の可能性を減らし、ビジネスの損失を防ぐことができます。

データガバナンスのコンポーネント

データガバナンスを担う人々とロール

包括的なデータガバナンスプログラムは、組織内の各ビジネスユニットを代表するリーダーで構成されるデータガバナンス議会から始まります。この議会では、ビジネス上の意思決定を行うためにデータをどのように使用するかについて、高レベルの主要な原則を確立します。議会は、各ビジネス機能のキーパーソンの協力を得て、顧客、プロダクト、患者、提供者などのデータドメインを特定します。その後、議会は各データドメインに対して、データオーナー権限とスチュワードシップのロールを割り当てます。これらはシニアレベルのロールであり、各オーナーはデータガバナンス議会が設定したデータ目標を推進するために責任を負い、それに応じて報酬を与えられます。例えば、顧客データのオーナーはマーケティングや営業担当者、財務データのオーナーは財務担当者、人事データのオーナーは人事担当者といったように、データオーナーやスチュワードはビジネスの現場から割り当てられます。

IT 部門のロールは、データ管理者です。IT 部門は、データオーナーが指定したポリシーに従って、データの取得、保護、保存、共有を確実に行います。データ管理者である IT チームは、データへのアクセスやデータの共有に関する決定を下すことはありません。IT 部門のロールは、データオーナーが設定したデータ管理ポリシーの実施をサポートするための技術管理に限定されています。

データガバナンスにおけるプロセス

各組織は、データガバナンス議会が設定した目標の実施に向けて、プロセスを確立します。このプロセスは、データオーナーとデータスチュワードが、それぞれのデータドメインのために確立します。このプロセスでは、以下のハイレベルな目標に焦点を当てています。

1. データが指定された データ品質基準を満たしていること（例: 98% の完全性、0.1% 以下の重複値、異なるテーブル間で 99.99% の一貫性のあるデータ、時間通りの配達の構成要素など）

2. 内部および外部のポリシーを遵守するためのデータセキュリティポリシー

データの暗号化を保存時と通信時に行う
データへのアクセスは許可されたユーザーのみに限定される
すべてのセンシティブデータ項目は削除または暗号化され、許可されたユーザーのみが動的に復号される
データは、決定論的な暗号化やハッシュ化などを用いて、非識別化された形式で分析のために結合できる
承認されたアクセスと未承認の試行の両方を監査できる

3. 外部パートナーとのデータ共有は、API を介して安全に利用可能

4. HIPAA、PCI DSS、GDPR、CCPA、LGPD などの業界および地域特有の規制へのコンプライアンス

5. データの複製を最小限に抑えられる

6. データカタログによるデータユーザーの一元的なデータ探索

7. データ品質の問題、データ複製ソースを特定するためのデータリネージの追跡、および監査の支援

テクノロジー

データガバナンスプログラムで規定されたプロセスを実行するには、テクノロジーの活用が必要です。データの保護、監査の保存と報告、モニタリングとアラートの自動化など、複数の技術を統合してデータのライフサイクルを管理します。

Google Cloud では、包括的なツール群により、企業はデータを安全に管理し、データの民主化を推進できます。Data Catalog は、Google Cloud 上の一元化された場所から、ユーザーが簡単にデータを見つけることを可能にします。Data Fusion はリネージを追跡するので、データオーナーはデータのライフサイクルのあらゆる時点でデータを追跡し、データを破損している可能性のある問題を修正できます。Cloud Audit Logs は、コンプライアンスに必要な監査を保持します。Dataplex は、インテリジェントなデータ管理、一元化されたセキュリティとガバナンス、自動データの検出、メタデータ収集、ライフサイクル管理、および AI を活用したインテリジェンスを内蔵したデータ品質を提供します。

ガバナンスを実現するためのツールやテクノロジーの活用については、本ブログのパート 2 で紹介します。

- Google Cloud カスタマーエンジニア Imad Qureshi

投稿先

Data Analytics

BigQuery のフルマネージドリモート MCP サーバーでデータ分析エージェントを迅速に構築

執筆者: Vikram Manghnani • 所要時間: 7 分

Data Analytics

企業データを Google の新しい Antigravity IDE に接続する

執筆者: Rahul Deshmukh • 所要時間: 5 分

Data Analytics

キュレートされたデータとコンテキストのための Dataplex Universal Catalog のデータプロダクトのご紹介

執筆者: Deepinder Dhuria • 所要時間: 5 分

Data Analytics

エージェント時代におけるリアルタイムデータイノベーションの認識

執筆者: Chai Pydimukkala • 所要時間: 4 分

クラウドにおけるデータ ガバナンス - パート 1 - 個人とプロセス

Google Cloud Japan Team

データ ガバナンスとは

データ ガバナンスが重要な理由

データ ガバナンスのコンポーネント

データ ガバナンスを担う人々とロール

データ ガバナンスにおけるプロセス

テクノロジー

関連記事

BigQuery のフルマネージド リモート MCP サーバーでデータ分析エージェントを迅速に構築

企業データを Google の新しい Antigravity IDE に接続する

キュレートされたデータとコンテキストのための Dataplex Universal Catalog のデータ プロダクトのご紹介

エージェント時代におけるリアルタイム データ イノベーションの認識

クラウドにおけるデータガバナンス - パート 1 - 個人とプロセス

データガバナンスとは

データガバナンスが重要な理由

データガバナンスのコンポーネント

データガバナンスを担う人々とロール

データガバナンスにおけるプロセス

BigQuery のフルマネージドリモート MCP サーバーでデータ分析エージェントを迅速に構築

キュレートされたデータとコンテキストのための Dataplex Universal Catalog のデータプロダクトのご紹介

エージェント時代におけるリアルタイムデータイノベーションの認識