データメッシュは、複雑な組織のデータを管理するためのアーキテクチャ フレームワークです。一元化されたモデルとは異なり、データメッシュではデータの所有権をドメイン固有のチームに分散します。このアプローチは、データをプロダクトとして扱うことでボトルネックを解消するのに役立ちますが、新しいリソース要件も発生します。データメッシュの成功は、ドメインチームが特定のデータ エンジニアリング スキルとガバナンス能力を備えているかどうかにかかっています。分散チームをサポートするリソースを備えた組織の場合、データメッシュによってアジリティを向上させることができます。そうでない場合、データ ウェアハウスやデータレイクなどの一元化されたモデルの方が、引き続きより効率的なソリューションとなることもあります。
データメッシュは、新しいツールやテクノロジーのセットではありません。これはデータについての企業の考え方の変化です。データメッシュ アプローチを導く 4 つの基本原則があります。これらの原則により、従来の一元的なデータ アーキテクチャの問題を解決するうえで、このアプローチが非常に効果的になります。
従来のデータ アーキテクチャでは、IT チームやデータ エンジニアリング チームなど、単一の中央チームがすべてのデータを管理します。データメッシュでは、データの所有権は、データを作成するビジネス ドメインに分散されます。たとえば、セールスチームは自分たちが生成する顧客データを所有し、マーケティング チームは自分たちが作成するキャンペーン データを所有します。これにより、チームは自分たちが生成するデータに対する責任や説明責任が大きくなります。
ドメイン指向の所有権では、データを作成するチームは、データをプロダクトのように扱う必要があります。企業が顧客に高品質なプロダクトを提供するのと同じように、データドメイン チームは、データを必要とする他のチームに高品質なデータを提供する必要があります。つまり、データを検出、理解、使用しやすくします。また、データは信頼性が高く、安全で、適切に文書化されている必要があります。また、アクセス制御を組み込んで、適切なユーザーのみが、自分のユースケースに適したデータにアクセスできるようにする必要があります。
データをプロダクトとして扱えるように、データメッシュはセルフサービス プラットフォームを使用します。このプラットフォームは、データ ドメイン チームが、中央データチームによる支援を必要とせずにデータ プロダクトを簡単に作成、管理できるようにするツールとサービスのセットです。これはシンプルで使いやすいプラットフォームで、データ ストレージ、セキュリティ、ガバナンスなど、データ管理に伴う多くの技術的タスクを自動化します。
データは分散化されてさまざまなチーム全体に広がっているため、全員が同じルールに従うようにする方法が必要です。そこで役立つのが、連携型コンピューティング ガバナンスです。このモデルでは、小規模な中央チームがすべてのデータに関するグローバルなルールと基準を設定します。ただし、これらのルールの適用は、それぞれのデータドメイン チーム自身によって行われます。これにより、ポリシーの一元化と実行の分散化の両方の利点を活かすことができます。
データメッシュのデータ プロダクトは、見つけやすく、参照可能で、信頼でき、自己記述型で、安全である必要があります。データ利用者が簡単にデータを発見し、その内容を理解し、高品質であることを認識できるようにする必要があります。また、明確で一貫したアクセスルールを適用して、セキュリティを確保することも必要です。
データメッシュの導入は段階的なプロセスです。多くの場合、小規模なパイロット プロジェクトと少数の意欲的なドメインチームから始めるのが最も良い方法です。まず、データ自律性の向上によってメリットが得られるビジネス領域を特定します。次に、そのチームがデータ プロダクトを作成できる最小限のセルフサービス プラットフォームを作成します。プロジェクトが成功したら、その結果を概念実証として使用し、組織全体にデータメッシュ アーキテクチャを導入します。
最大の課題の一つは、企業文化の変革です。一元的なデータチームが管理を放棄するのは難しい場合があります。また、データ セキュリティの確保や分散システムの管理など、技術的な課題もあります。しかし、慎重な計画と明確なコミュニケーション戦略があれば、これらの課題を克服できます。
データメッシュは、既存のデータシステムと連携するように設計されています。現在のデータレイクやデータ ウェアハウスを廃棄する必要はありません。代わりに、それらの上に実装できます。データメッシュは、統一されたセルフサービス方式により、チームがさまざまなソースからデータにアクセスできる新たなレイヤとして機能します。
データメッシュは、購入できるサービスだと誤解されることがよくあります。そのようなものではありません。これはデータを整理および管理する新しい方法です。また、データメッシュが大企業のみを対象としているという誤った認識もあります。これは大企業で最も一般的に使用されますが、その原則は小規模組織にも同様に適用できます。
データ メッシュの成功を測定するのは難しい場合があります。なぜなら、最初はメリットが金銭的なものではないことが多いからです。代わりに、データ配信の速度、データ プラットフォームを使用しているチームの数、チームが使用しているデータに対して持つ信頼などを調べることで成功を測定できます。時間が経つにつれて、こうした改善が、ビジネス成果の向上や投資収益率(ROI)の向上につながる可能性があります。
データメッシュ アプローチは、従来のデータ アーキテクチャで発生するいくつかの一般的な問題を解決するために作成されました。個々の部門やチームが所有するデータ ウェアハウスやデータレイクなどのモデルは、特に企業の成長に伴って、データサイロやガバナンスのリスクを生み出す可能性があります。データメッシュはこれらの問題に対処するために、所有権を分散して個々のチームを強化しながらも一元管理を維持し、ドメインを横断してデータを統制、モニタリングします。
特徴 | データメッシュ | 従来のアーキテクチャ |
アーキテクチャ モデル | 非集中化され、ビジネス ドメイン全体に分散されます。 | 一元化され、モノリシックであり、単一のチームによって管理されます。 |
データの所有権 | データは、それを作成して使用するドメイン チームによって所有されます。 | データは中央データ チームによって所有および管理されます。 |
データアクセス | チームは標準化されたデータ プロダクトを通じてデータにアクセスします。 | チームはデータを入手するために中央チームを経由する必要がある。 |
スケーラビリティ | 新しいドメイン チームやデータ プロダクトの追加に合わせて、簡単に拡張できます。 | 組織の成長やデータ量の増加に伴い、ボトルネックが生じる可能性があります。 |
データ品質 | ドメインチームが自身のデータの品質に対して説明責任を負うため、データの信頼性と精度を向上させることができます。 | 中央チームが各ドメインのコンテキストを把握していないと、データ品質に一貫性がなくなる可能性があります。 |
データ ガバナンス | ガバナンスは、一元的に設定され、ドメインチームによって適用されるグローバルな標準とルールにより連携されます。 | ガバナンスは一元化され、1 つのチームですべて処理されます。 |
ユースケース | 多様なデータと独立したビジネス ユニットを持つ大規模で複雑な組織に最適です。 | 小規模な組織や、信頼できる唯一の情報源を必要とする特定のユースケースに最適です。 |
必要な技術的専門知識 / リソース | 各ドメインチーム内に分散された技術スキル(エンジニアリング、ガバナンス)が必要です。 | 技術的な専門知識を 1 つのコア IT チームやデータ エンジニアリング チームに集中させます。 |
データメッシュ
従来のアーキテクチャ
アーキテクチャ モデル
非集中化され、ビジネス ドメイン全体に分散されます。
一元化され、モノリシックであり、単一のチームによって管理されます。
データの所有権
データは、それを作成して使用するドメイン チームによって所有されます。
データは中央データ チームによって所有および管理されます。
データアクセス
チームは標準化されたデータ プロダクトを通じてデータにアクセスします。
チームはデータを入手するために中央チームを経由する必要がある。
スケーラビリティ
新しいドメイン チームやデータ プロダクトの追加に合わせて、簡単に拡張できます。
組織の成長やデータ量の増加に伴い、ボトルネックが生じる可能性があります。
データ品質
ドメインチームが自身のデータの品質に対して説明責任を負うため、データの信頼性と精度を向上させることができます。
中央チームが各ドメインのコンテキストを把握していないと、データ品質に一貫性がなくなる可能性があります。
データ ガバナンス
ガバナンスは、一元的に設定され、ドメインチームによって適用されるグローバルな標準とルールにより連携されます。
ガバナンスは一元化され、1 つのチームですべて処理されます。
ユースケース
多様なデータと独立したビジネス ユニットを持つ大規模で複雑な組織に最適です。
小規模な組織や、信頼できる唯一の情報源を必要とする特定のユースケースに最適です。
必要な技術的専門知識 / リソース
各ドメインチーム内に分散された技術スキル(エンジニアリング、ガバナンス)が必要です。
技術的な専門知識を 1 つのコア IT チームやデータ エンジニアリング チームに集中させます。
データ メッシュ アプローチは、複数のビジネス ユニットと大量のデータを持つ大規模で複雑な組織に特に役立ちます。ここでは、データ メッシュが大きな価値を提供できる一般的なユースケースをいくつか紹介します。
データメッシュは、組織がデータ分析とビジネス インテリジェンス(BI)の取り組みからより多くの価値を引き出すのに役立ちます。さまざまなドメインのデータ プロダクトを使用することで、データ サイエンティストやアナリストは、ビジネスをより包括的に把握できるようになります。たとえば、小売企業は、セールス ドメインの顧客データとマーケティングドメインのウェブ トラフィック データを組み合わせることで、顧客の行動をより深く理解できます。
お客様の 360 度イニシアチブは、さまざまなソースのデータを組み合わせてお客様の完全なビューを作成することを目的としています。一元化されたデータ アーキテクチャでは、データがさまざまな部門にサイロ化さていることが多いため、これは困難になる可能性があります。データ メッシュでは、標準化された方法で、セールス、マーケティング、サポートなどのさまざまなドメインのデータ プロダクトにアクセスして組み合わせることができるため、これを非常に簡単に実現できます。
金融サービスでは、データメッシュはリアルタイム モニタリングや不正検出に役立ちます。たとえば、銀行では、トランザクション用のデータ プロダクトと顧客ログインデータ用のデータ プロダクトを別々に持つことができます。不正検出システムは、この両方のデータ プロダクトにアクセスして、不審な行為を特定できます。データ メッシュは、その非集中的な性質により、このような種類のアプリケーションに必要な速度と信頼性の向上に役立ちます。
データ プライバシー規制が複雑になるにつれて、一元化されたデータ モデルでコンプライアンスを確保するのが困難になる可能性があります。データ メッシュは、ドメイン チームが自身のデータ プロダクトを管理し、現地の法律を遵守していることを確認できるようにすることで、規制遵守を支援します。これは、国ごとに異なるデータ主権規則を遵守する必要がある多国籍企業にとって特に重要です。
高度な AI アプリケーションとエージェントが効果的に機能するには、高品質でコンテキストが豊富なデータが必要です。データメッシュでは、ドメインチームが利用目的に合わせてデータをキュレートし、データをクリーンで、ラベル付けされ、文書化された状態にします。これにより、データ サイエンティストはデータの準備に過度の時間を費やすことなく、信頼性の高い入力に基づいてモデルをトレーニングできます。さらに、AI エージェントは API を介してこれらのモジュール式データ プロダクトにアクセスし、リアルタイムの情報を取得できるため、さまざまなビジネス ドメイン全体にわたる複雑なタスクをより高い精度で実行できます。
データ メッシュを導入すると、組織に大きなメリットがもたらされます。非集中型モデルに移行することで、企業は従来のアーキテクチャのボトルネックを克服し、より良いビジネス成果を達成できます。
アジリティとスケーラビリティ
データ メッシュはよりアジャイルになることができます。各データドメインは独立して動作できるため、組織はより迅速に拡大し、進化できます。中断を引き起こすことなく、新しいデータ プロダクトやサービスを簡単に追加できるようになります。
データ品質と信頼性
データ メッシュは、データを生成するドメイン チームに説明責任を割り当てることができます。ドメイン チームは自身のデータの主な利用者でもあるため、その品質を確保する強い動機があります。このことが、より信頼性の高いデータにつながります。
費用対効果
また、データメッシュは、企業の費用効率の向上にも役立ちます。一元化されたデータ プラットフォームでは、チームはデータのニーズを満たすために、中央のデータチームの支援を待たなければならないことがよくあります。これにより、遅延やリソースの無駄が発生する可能性があります。
Dataplex Universal Catalog は統合データ ファブリックとして機能し、データメッシュ全体に中央ガバナンス レイヤを提供します。これはさまざまな環境に分散されたデータを検出、管理、統制するのに役立ち、メタデータとポリシーの信頼できる唯一の情報源を確保できます。開始するには、Dataplex レイクを作成する必要があります。Dataplex レイクは、データを保持する最上位のコンテナーであり、通常はビジネス ドメインにマッピングされます。
レイクを作成する手順は次のとおりです。
Dataplex はこれらのアセットを自動的にスキャンし、メタデータを検出してカタログ化します。
「プロダクトとしてのデータ」原則の重要な要素は、データを簡単に見つけられるようにすることです。BigQuery のデータ共有により、データ プロダクト マーケットプレイスを構築できます。これにより、ドメイン チームは、データをコピーまたは移動することなく、データ プロダクトを他のチームと安全に共有できます。これはデータ利用者が必要なデータを見つけるのに役立ち、データ利用者は明確で適切に定義されたインターフェースを使用してデータにアクセスできます。
Google Cloud のサーバーレス サービスにより、ドメインチームは最小限のオーバーヘッドで独自のデータ プロダクトを作成および管理できます。BigQuery は、チームが大規模なデータセットを迅速かつ効率的に分析できるようにする強力なサーバーレス データ ウェアハウスです。Dataflow は、データ プロダクトのデータ パイプラインを構築および自動化するために使用できるサーバーレス データ処理サービスです。これらのサービスにより、中央のデータ エンジニアリング チームがインフラストラクチャを管理する必要性が軽減され、ドメイン チームの自律性と俊敏性が向上します。
連携型コンピューティング ガバナンスとは、中央チームがグローバル ルールを定義し、ドメイン チームがそれを適用するという原則です。Google Cloud の Identity and Access Management(IAM)条件は、これを実装するためのツールを提供します。IAM 条件を使用すると、属性ベースのアクセス制御 (ABAC) が可能になり、データ属性に基づいてきめ細かな権限を設定できます。たとえば、ユーザーが特定のリージョンの顧客データにのみアクセスできるようにするポリシーを作成して、GDPR などのデータ主権に関する規制を確実に遵守することができます。