コンテンツに移動
データ分析

Google Cloud 上に Dataplex を使用して構築されたデータメッシュの一般提供を開始

2022年3月7日
https://storage.googleapis.com/gweb-cloudblog-publish/images/dataplex_I8XOXv6.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 2 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。

データクラウドの構築を目指す多くの企業にとって、データ分析の民主化とデータドリブンな意思決定の促進は最優先事項となっています。多くの場合その実現には、データサイロを横断し、重要なビジネスに関する分析情報をより多く得るために、データの利用と応用を大規模に行うセルフサービス型データ プラットフォームの構築が求められます。現在の組織は、多くのビジネス コンテキストを持つチーム間でデータの所有権を分散させると同時に、データのライフサイクル管理やガバナンスが、分散データの環境全体で一貫して適用される機能を必要としています。

本日、Dataplex の一般提供を発表できることをうれしく思います。この、Dataplex は、データレイク、データ ウェアハウス、データマートに保存されたデータを一元管理、モニタリング、統制し、さまざまな分析ツールやデータ サイエンス ツールへの安全なアクセスを可能にするインテリジェントなデータ ファブリックです。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_dataplex.max-2000x2000.jpg

Dataplex を使用することで、企業はデータの所有権、使用、共有を、適切なビジネス コンテキストを持つデータ所有者に容易に委任できます。また、組織内のさまざまなデータドメインにおいて、一貫したデータのモニタリング、統制を行い一元管理できます。Dataplex に組み込まれたデータ インテリジェンスによって、データの検出、データのライフサイクル管理、データ品質の管理を自動化することで、データの生産性を高め、分析のアジリティを向上できます。  

お客様の声をご紹介します。

「当社は、GCS と GCP の BigQuery にペタバイト規模のデータを保存していて、毎日 1000 人の内部ユーザーがアクセスしています」Snap Inc. のエンジニアリング ディレクターである Saral Jain 氏は述べています。「Dataplex によって、分散データ全体に対して、ビジネス ドメインに特化したセルフサービス型のデータ プラットフォームが提供され、データの所有権は分散されていながらガバナンスと可視性の一元化が可能になりました。データ管理に伴う手動作業が大幅に軽減され、BigQuery とオープンソース アプリケーションの両方を介して自動的にデータをクエリできます。Dataplex を中央コンポーネントとして導入し、分析データ全体にわたる統合データメッシュを構築できることをとてもうれしく思います。」

「ドイツ銀行の中央データチームとして、私たちはデータメッシュを構築し、分散したドメイン間でデータの検出、アクセス制御、データ品質の管理を標準化しています」ドイツ銀行のビッグデータ プラットフォーム担当ディレクターである Balaji Maragalla 氏は述べています。「この取り組みのなかで、Dataplex を使用し分散データの一元的なガバナンスを実現できることを嬉しく思います。Dataplex を使用することで、チームのデータメッシュに関するビジョンにはっきした形を与え、複数のドメインにまたがるデータの整理、データ セキュリティ、データの品質管理に適切なコントロール セットが提供されています。」

「日本最大手のエンターテインメント企業として、当社は毎日テラバイト規模のデータを生成し、ビジネス上の重要な意思決定に活用しています」 DeNA のデータ分析担当ディレクター岩尾氏は述べています。「当社は、各プロダクトを個別のドメインとして独立管理していますが、プロダクト間のデータ ガバナンスに関しては一元化を望んでいます。Dataplex を使用することで、このようなドメインにまたがるデータ品質、データ セキュリティ、データのプライバシーを効率的に管理し標準化できます。Google Cloud の Dataplex を活用することで、当社のデータに対する信頼が構築されることを期待しています。」

Dataplex によって実現できる主なユースケースの一つに、データメッシュ アーキテクチャがあります。データメッシュを使用できるデータ ファブリックとして、Dataplex をどのように活用できるのか、詳しく見ていきましょう。

データメッシュとは

企業のデータの多様化と分散化が進み、そのデータへのアクセスを必要とするツールやユーザーが増加するなかで、企業はドメインに依存しないモノリシックなデータ アーキテクチャから移行しつつあります。モノリシックな一元管理されたアーキテクチャはデータのボトルネックを生み、分析のアジリティに影響を及ぼします。一方で、ビジネス ドメインがそれぞれ専用のデータレイクを維持する完全な分散型アーキテクチャにも注意すべき点があり、データの重複やサイロ化が発生すると、データのガバナンスが不可能になります。Gartner によると、2025 年までに、デジタル ビジネスの拡大を目指す組織の 80% は、データと分析のガバナンスに最新のアプローチをとっていないことに起因して失敗すると言われています。

この論文で、Zamak Deghani 氏が初めて提案したデータメッシュ アーキテクチャは、モノリシックなデータレイクやデータ ウェアハウスのアーキテクチャから、データの所有権を独立させる分散型のドメイン固有のアーキテクチャに移行し、ドメインに対応した分散型データ管理でアジリティを提供すると同時に、ドメイン間でデータを一元的に統制、モニタリングできる最新のデータスタックについて説明しています。詳細については、最新の分散型データメッシュの構築に関するホワイトペーパーを参照ください。  

Google Cloud でデータメッシュを実現する方法

Dataplex は、組織にまたがるデータメッシュ内に独立したデータドメインの構築を容易にするデータ管理プラットフォームを提供していますが、ドメイン間でデータを統制、モニタリングするための一元管理は維持されています。

「Dataplex は、Adeo で構想したデータメッシュの原理を具現化したものです。GCP でデータメッシュを構築するために、クラウドネイティブな自社プロダクトを持つことは、データ共有とデータ品質の確保をチーム間で効果的に行うために非常に重要です。Dataplex を使用すると生産性が合理化され、チームはデータドメインを構築して、企業全体のデータのキュレーションをオーケストレートすることが可能になります。あと 3 年早く Dataplex を使用したかったです。」 - ADEO プロダクト リーダー Alexandre Cote 氏

組織内に次のようなドメインがあると仮定します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_dataplex.max-2000x2000.jpg

Dataplex を使用すると、データとコード、ノートブック、ログなどの関連アーティファクトを、データドメインを表す Dataplex レイクに論理的に整理できます。

データの物理的な移動や、単一のストレージ システムに保存することなく、特定のドメインの全データを、レイク内の一連の Dataplex アセットとしてモデル化できます。アセットは、複数の Google Cloud プロジェクトに保存されている Cloud Storage バケットや BigQuery データセットを参照でき、分析データ、運用に関するデータ、論理的に単一ドメインに属する構造化データと非構造化データを管理します。Dataplex ゾーンでは、アセットをグループ化し、準備状況、関連するワークロード、提供するデータ プロダクトといった、データに関する重要な要素を捉えた構造を追加できます。  

Dataplex のレイクとデータゾーンを活用することで、分散データの統合や、ビジネス コンテキストに応じた整理ができます。これにより、メタデータの管理、ガバナンス ポリシーの設定、データ品質のモニタリングなどの基盤を築き、分散データを大規模に管理できるようになります。  

では、ドメインについてもう少し詳しく見ていきましょう。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_dataplex.max-2000x2000.jpg

データソース間でメタデータを自動的に検出: Dataplex を使用すると、ドメインのすべてのメンバーがテーブルやファイルセットを簡単に検索、参照、検出し、ビジネスやドメイン固有のセマンティクスで強化された、メタデータ管理とカタログ化を実現できます。データをアセットとして追加すると、Dataplex によって関連するメタデータが自動的に抽出され、データの発展に伴って最新の状態に更新されます。このメタデータは検索や検出に活用され、Data Catalog と統合されることでより強化されます。

ツールの相互運用を実現: Dataplex によってキュレートされたメタデータは、Apache SparkSQL、HiveQL、Presto などを介してフェデレートされたオープンソース分析を強化するためのランタイム メタデータとして自動的に利用できるようになります。また、対応するメタデータは自動的に BigQuery の外部テーブルとして公開され、BigQuery を介したフェデレーション分析が可能になります。

大規模なデータ管理: Dataplex を使用すると、データ管理者とデータ スチュワードは IAM データポリシーを一貫してスケーラブルに管理し、分散データ全体へのデータアクセスを制御できます。データの独立した所有権と委任された所有権を実現すると同時に、ドメイン間でデータを一元管理する機能を提供します。また、ドメインと基盤となる物理ストレージ リソースの読み取りと書き込み権限を管理する機能も提供しています。Dataplex は Stackdriver と統合し、監査ログ、データ指標、ログを含むオブザーバビリティを提供します。

高品質なデータへのアクセスを実現: Dataplex には、データの問題点を自動的に発見するデータ品質ルールが組み込まれています。このようなルールは、BigQuery と GCS のデータ全体でデータ品質タスクとして実行できます。

ワンクリックでデータ探索: Dataplex を使用することで、データ エンジニア、データ サイエンティスト、データ アナリストは、組み込まれたセルフサービス型のサーバーレスなデータ探索エクスペリエンスによって、データとメタデータのインタラクティブな探索、スクリプトの反復開発、データ管理ワークロードのデプロイとモニタリングが可能になります。また、SQL スクリプトと Jupyter ノートブック全体のコンテンツ管理が提供され、ドメイン固有のコード アーティファクトの作成を簡素化し、同一のインターフェースから共有、またはスケジュール設定が行えます。

データ管理: データの階層化、アーカイブ、絞り込みなどの一般的なタスクに対応する、組み込みこまれたデータ管理タスクを利用できます。また、Dataproc ServerlessDataflowData Fusion、BigQuery といった Google Cloud のネイティブなデータツールと統合し、統合データ管理プラットフォームを提供します。

Dataplex では、データ、メタデータ、ポリシー、コード、インタラクティブな生産分析インフラストラクチャ、データのモニタリングを組み合わせることで、データメッシュの中核となる価値提案を実現します。それは「プロダクトとしてのデータ」です。

「現在、分散データの一貫性のあるデータ管理とガバナンスは、クライアントの多くにとって最重要課題となっています。Dataplex を使用すると、ビジネス中心のデータメッシュ アーキテクチャを実現し、分散データの管理、モニタリング、統制に関連する管理オーバーヘッドを大幅に削減できます。Dataplex チームと協力し、企業クライアントがよりデータドリブンなデジタル トランスフォーメーションに向けた取り組みを加速させることを期待しています」-Deloitte Consulting LLP マネージング ディレクター兼米国 Google Cloud データ分析 GTM リード Navin Warerkar 氏

次のステップ

クイックスタート ガイドやデータメッシュのチュートリアルを使用するか、Google Cloud セールスチームに問い合わせて、Dataplex を今すぐ使ってみましょう。



- Google Cloud 上級プロダクト マネージャー Prajakta Damle
- Dataplex およびオープンデータ分析担当エンジニアリング リード Nikhil Kothari

投稿先