コンテンツに移動
データ分析

Dataplex のご紹介 - データ管理を一元化できるインテリジェントなデータ ファブリック

2021年5月28日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 5 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。

エンタープライズ データの現況を俯瞰すると、データは複数のデータレイク、データ ウェアハウス、データベース、その他の特殊なデータマートに保存され、日増しに分散化が進行しています。データを機能させ、ビジネスの意思決定の基盤としてデータを使用したいと考える企業が増えつつあります。複数のサイロに分散されたデータにアクセスする人とツールが増えるにつれ、分散データ戦略を実施しつつ、分析のため高品質のデータを簡単に検出して利用できるようにすることは、企業にとって日増しに困難になっています。組織はプロセスの構築に際して、データを統合してツールを相互運用できるようにすることと、アジリティを犠牲にしてモノリシック データシステムにデータを移動することとの間で、妥協を余儀なくされることがしばしばあります。

Google はこのたび、インテリジェントなデータ ファブリックである Dataplex を発表いたします。組織は Dataplex を使用することで、データレイク、データ ウェアハウス、データベース、データマートの全体を対象にしたデータの一元管理、モニタリング、統制が可能になり、また多様な分析ツールやデータ サイエンス ツールがデータに安全にアクセスできるようになります。Google Cloud とオープンソースの最高のパフォーマンスを統合して、データを大規模に迅速にキュレート、保護、統合、分析できるようになり、統合された分析エクスペリエンスが提供されます。Google の最高水準の人工知能と機械学習機能を使用した組み込みのデータ インテリジェンスと柔軟な消費モデルによって、組織はインフラストラクチャの複雑さや非効率性に起因する問題に対処する時間が短縮されます。また信頼できるデータにアクセスして利用することで、ビジネスの成果が加速されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/integrated_analytics_experience.max-1300x1300.jpg

Dataplex でできること

  • 適切な価格とパフォーマンスで保存場所を自由に選択でき、また Google Cloud と、Apache Spark、Presto などのオープンソースの分析テクノロジーを選択できます。

  • 全部のデータに一貫した制御を適用して、一元化されたセキュリティとガバナンスを実現できます。

  • Google の最高水準の AI / ML 機能と組み込みのデータ インテリジェンスを活用して、データ管理に必要な多くの手作業を自動化し、より高品質のデータを利用できます。

Equifax、Loblaw、ANZ など、早期に採用されたお客様は、Dataplex を使用してすでにデータ管理と複雑な問題に取り組んでいます。

「Dataplex は、その一元化されたデータ ファブリックに加えて、すべての分析データを対象としたポリシー管理とガバナンスのための単一のインターフェースで、Equifax 内の既存の分析ワークフローを大幅に簡素化してくれるでしょう」と、Equifax のデータ ファブリックと意思決定科学テクノロジー担当の上級副社長である Kumar Menon 氏は述べています。「組み込みのデータ検出機能とデータ品質機能により、データ サイエンティストとアナリストは常に信頼できる高品質なデータを利用できます。Dataplex はエンタープライズ データ戦略とうまく連携しており、この取り組みで Google Cloud とパートナーを組めることをうれしく思います。」

-Equifax 社データ ファブリックおよび意思決定科学テクノロジー担当上級副社長 Kumar Menon 氏

「Loblaw はカナダで食料品店と薬局を展開するリーダー企業です。Dataplex のアーリー アドプターになれてうれしく思います。Dataplex では 1 つのパネルでエンドツーエンドのデータ管理とガバナンスができるため、非常に大きなメリットがあります。Dataplex を使用してデータ パイプラインの異常をできるだけ早く検出して、プラットフォームの復元力とデータ品質を改善することに特に興味があります。」

-Loblaw 社データ インサイトおよび分析担当上級ディレクター Elton Martins 氏

「ANZ では大規模なデータ変換を行っている最中であり、さまざまなデータアセットの統合を通して、顧客のためにまとまりのあるデータ エコシステムを構築することを目指しています。Dataplex のビジョンと機能は、現在の弊社のデータ戦略、つまりすべての分析と AI / ML のユースケースに対応する一元化されたデータ ファブリックを構築する戦略と、うまく整合しているのです。Dataplex で GCP とパートナーを組み、プライベート プレビューでプロダクトをテストできることをうれしく思います。」

-ANZ 社 エンタープライズ分析および応用 AI テクノロジー部門長 Ashish Shekhar 氏

Dataplex は分散データを対象にゼロから構築されたものです。Google Cloud、Cloud Storage、BigQuery に保存されたデータから始まった Dataplex は、間もなく他のデータソースのサポートも開始します。Dataplex はワークフロー主導のエクスペリエンスを提供するとともに、柔軟なデータ プラットフォームを構築してエンドユーザーがデータに簡単にアクセスできるようにします。同時に、ポリシーとベスト プラクティスが一貫して適用されるよう保証します。

データの組織化とキュレーション

データの移動や重複を回避しつつ、ビジネスに有意義な方法でデータを整理し管理する。それが Dataplex の中心的な考え方です。これを実現するため、Google ではレイク、データゾーン、アセットなどの論理構造を提供しています。これらの構成要素は基礎となるストレージ システムを抽象化して、データアクセス、セキュリティ、ライフサイクル管理などのポリシーを設定する基盤になります。

これにより、たとえば、組織内の部門(小売、販売、財務など)ごとにレイクを作成でき、またデータの即応性と使用(landing、raw、curated_data_analytics、curated_data_science など)に直結するデータゾーンを作成できます。

レイクとゾーンを一度設定すると、そのゾーンにはデータをアセットとしてアタッチできます。さまざまなタイプのストレージ(GCS バケットや BigQuery のデータセットなど)から取得したデータを同じゾーンに追加できます。同じゾーン内の複数のプロジェクトにデータをアタッチすることもできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Organizing_and_curating_your_data.max-600x600.jpg

好きなツール(例: DataflowData FusionDataprocPub/Sub)を使用して、レイクとゾーンにデータを取り込みます。または、パートナー プロダクトから 1 つ選択することもできます。Dataplex では、一般的なデータ管理タスクに使用する組み込みのワンクリック テンプレートも用意されています。

データの保護

Dataplex では、データの物理的な場所に関係なく、データ全体で一貫したポリシーを定義して適用できます。データオーナーは、データの保存場所を気にすることなく、ビジネスニーズに基づいて特定のデータドメインに関するポリシーを簡単に設定できます。また、データ スチュワードにより、Dataplex が管理するデータの全体でガバナンス ポリシーと権限がグローバルに可視化されます。

レイク全体、特定のゾーン、アセットに対してセキュリティとガバナンス ポリシーを適用できます。Dataplex は基礎となるストレージにポリシーを関連付け、アクセス許可をストレージ レイヤにプッシュダウンすることで、エンドツーエンドの安全なデータアクセスを提供します。さらに、同じアクセス ポリシーのセットを使用して、データだけでなく、ノートブック、スクリプト、モデルなどの関連アーティファクトも保護できます。

高品質のデータを分析とデータ サイエンスに利用できるようにする

Dataplex の最大の差別化要因は、Google が持つ最高水準の AI / ML テクノロジーを使用したデータ インテリジェンス機能です。この特徴はプロダクトのあらゆる側面に浸透しています。お客様がデータを管理下に置いた段階で、Dataplex は組み込みのデータ品質チェックを使用して、構造化データと非構造化データの両方のメタデータを自動的に収集します。すべてのメタデータは統合メタストアに自動的に登録され、検索と検出に利用できるようになります。また、BigQueryDataproc MetastoreData Catalog にも公開され、それによりツール間で同じ一貫したデータアクセスが可能になります。 

たとえば、Parquet ファイルを Google Cloud Storage バケットに書き込むと、Dataplex はそれらのファイルのメタデータを自動的に抽出して、ハイブスタイルのパーティションを含む表形式のスキーマを検出し、メタデータとデータの品質チェックを実行します。次にこのデータを任意のオープンソースまたはパートナー アプリケーションからの外部テーブルとして、BigQuery でクエリできるようにします。その際、セキュリティとアクセスに関するポリシーは、論理データレイヤで定義したのと同じものが一貫して適用されます。

このようにして、お客様のデータ サイエンティストとアナリストは、好きなツールを使用して、品質基準とガバナンスルールを満たすデータに安全にアクセスできます。追加の処理は必要ありません。

https://storage.googleapis.com/gweb-cloudblog-publish/images/dataplex.max-2000x2000.jpg

共同編集による分析にワンクリックでアクセス

Dataplex は、フルマネージドのワンクリック分析環境を提供します。Apache Spark や BigQuery のパワーを利用できるだけでなく、今後登場するエンジンもサポートします。

データ管理者は適切な費用管理と財務ガバナンス手法によって、この環境を事前に、柔軟に構成できるようになります。環境を支えるうえで、インフラストラクチャの管理と保守というオーバーヘッドを考慮する必要はありません。各種のワークロードに対応するさまざまな環境をすばやく構成し、IAM の認証情報によってその環境を複数のユーザーと共有できます。Dataplex は、こうした環境のプロビジョニング、モニタリング、スケーリング、シャットダウンを管理します。 

データ サイエンティスト、アナリスト、エンジニアであるお客様は、ノートブックと SQL ワークベンチを使用した分析をターンキー エクスペリエンスとして実行できるようになりました。データ検索に加えてノートブックとスクリプトの検索、作業内容の保存と他のユーザーとの共有、ノートブックやスクリプトの定期的ワークロードとしてのスケジューリング。これらすべてが、Dataplex では 1 つの統合エクスペリエンスとして実行されます。  

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/access_to_collaborative_analytics.gif

業界リーダーと共同でオープン プラットフォームを構築

最後に、分析を大規模に推進するオープン プラットフォームを構築するため、Google が提携している業界リーダーを次にご紹介します。AccentureCollibraConfluentInformaticaHCLStarburstNVIDIATrifacta など。Google のパートナー各社も、Dataplex がもたらす機能を歓迎しています。

「Collibra は、分散データに対して一貫した管理をできるようにするため、Dataplex との提携によりデータ ガバナンスとデータ品質を導入することをうれしく思います。Collibra のマルチクラウドおよびハイブリッド ソリューションを Dataplex と組み合わせることで、企業は 1 つの統合されたビューから数多くの高品質データに安全にアクセスして、ユーザー サービスや分析に使用できます。」

-Collibra 社 プロダクト最高責任者 Jim Cushman 氏

「Dataplex は、Google Cloud のオープンソースへのコミットメントに基づいて、イベント ストリーミング用の主要なオープンソース プラットフォームである Apache Kafka® を統合して構築されたものです。Confluent は、Apache Kafka® を経由して移動中のデータを企業が利用できるようにするプラットフォームを提供しています。弊社と Dataplex との提携により、お客様は分散したリアルタイム データをまとめ、エンドツーエンドの分析を行う統合データ ファブリックを構築できるようになります。」

-Confluent 社 VP カスタマー ソリューションズ アンド イノベーション部門長 Paul Mac Farland 氏

「Google Cloud の Dataplex チームと提携できることをうれしく思います。弊社は Google との共通のお客様に対して、大規模な分析に使用する統合オープンデータ ファブリックを提供することを目指しています。Starburst Enterprise を使用して Dataplex のデータ管理とデータ品質機能を拡張すれば、データを移動せずに分散データを利用したいと望む企業は価値実現までの時間を短縮できます。」

-Starburst 社 CEO 共同設立者 Justin Borgman 氏

次のステップ

Dataplex が実際の利用段階に入ったことをうれしく思います。Dataplex は、一部のお客様向けにプレビューでご利用可能になりました。詳細については、Google のウェブサイトにアクセスするか、録画をご覧ください。登録をご希望の場合は、こちらをクリックしてください。

- Google Cloud プロダクト管理ディレクター Irina Farooq

- Google Cloud 上級プロダクト マネージャー Prajakta Damle

投稿先