Dataplex の概要

Dataplex は分散データを統合し、そのデータのデータ管理とガバナンスを自動化するデータ ファブリックです。

Dataplex によって、次のことができます。

  • 複数の Google Cloud プロジェクトに保存されているデータにわたって、データを移動せずにドメイン固有のデータメッシュを構築します。
  • 単一の権限セットでデータの一貫したガバナンスとモニタリングを行います。
  • カタログ機能を使用して、さまざまなサイロにわたってメタデータを検出し、キュレートします。詳細については、Data Catalog の概要をご覧ください。
  • BigQuery と、SparkSQL、Presto、HiveQL などのオープンソース ツールを使用して、メタデータを安全にクエリします。
  • サーバーレス Spark タスクを含む、データ品質とデータ ライフサイクルの管理タスクを実行します。
  • ノートブックと SparkSQL クエリに簡単にアクセスできる、フルマネージドでサーバーレスな Spark 環境を使用して、データを探索します。

Dataplex を使用する理由

企業には、データレイク、データ ウェアハウス、データマートにわたって分散されたデータがあります。Dataplex を使用すると、次のことができます。

  • データを検出します
  • データをキュレートする
  • データを移動せずに統合する
  • ビジネスニーズに基づいてデータを整理する
  • データの一元管理、モニタリング、ガバナンス

Dataplex は、この分散データにわたり、メタデータ、セキュリティ ポリシー、ガバナンス、分類、データ ライフサイクルの管理を標準化し、統合するのに役立ちます。

イメージ

Dataplex の仕組み

Dataplex は、データの移動または重複を必要としない方法でデータを管理します。新しいデータソースが特定されると、Dataplex は組み込みのデータ品質チェックを使用して、構造化と非構造化の両方のデータのメタデータを収集し、整合性を高めます。

Dataplex は、統合されたメタストアにすべてのメタデータを自動的に登録します。次のようなさまざまなサービスやツールを使用して、データとメタデータにアクセスできます。

  • BigQuery、Dataproc Metastore、Data Catalog などの Google Cloud サービス。
  • Apache Spark や Presto などのオープンソース ツール。

用語

Dataplex は、次の構造を使用して、基盤となるデータ ストレージ システムを抽象化します。

  • レイク: データドメインまたはビジネス ユニットを表す論理的な構造。たとえば、グループの使用状況に基づいてデータを整理するために、部門(たとえば、小売、販売、財務)ごとにレイクを設定できます。

  • ゾーン: レイク内のサブドメイン。次の方法でデータを分類するのに役立ちます。

    • ステージ: たとえば、ランディング、未加工、キュレート済のデータの分析、キュレート済のデータ サイエンスなど。
    • 使用状況: データ契約など。
    • 制限: セキュリティ管理やユーザー アクセスレベルなど。

    ゾーンには、未加工とキュレート済の 2 種類があります。

    • 未加工ゾーン: 未加工フォーマットで、厳密な型チェックの対象ではないデータが含まれます。

    • キュレート済ゾーン: クリーニングされ、フォーマットされ、分析される準備ができているデータが含まれます。データは列型で、Hive パーティション分割され、Parquet、Avro、Orc ファイル、または BigQuery テーブルに格納されます。データには型チェックが行われます。たとえば、CSV ファイルは SQL アクセスのパフォーマンスがよくないため、使用を禁止します。

  • アセット: Cloud Storage と BigQuery のいずれかに保存されているデータにマッピングします。別々の Google Cloud プロジェクトに保存されているデータをアセットとして単一のゾーンにマッピングできます。

  • エンティティ: 構造化と半構造化のデータ(テーブル)と非構造化データ(ファイルセット)のメタデータを表します。

一般的なユースケース

このセクションでは、Dataplex を使用する一般的なユースケースの概要を説明します。

ドメイン中心のデータメッシュ

この種類のデータメッシュでは、データが企業内の複数のドメイン(たとえば、販売、顧客、製品)に整理されます。データの所有権を分散化できます。異なるドメインのデータを登録できます。たとえば、データ サイエンティストとデータ アナリストは、異なるドメインから pull して、機械学習とビジネス インテリジェンスなどのビジネスの目標を達成できます。

次の図では、ドメインは Dataplex レイクによって表され、別々のデータ プロデューサーによって所有されています。データ プロデューサーは、ドメインでの作成、キュレーション、アクセス制御を所有します。その後、データ コンシューマは、分析のためにレイク(ドメイン)またはゾーン(サブドメイン)へのアクセスをリクエストできます。

データメッシュの作成

この場合、データ スチュワードは、データ ランドスケープ全体を総合的な表示を保持する必要があります。

この図には、次の要素が含まれています。

  • Dataplex: 複数のデータドメインのメッシュ。
  • ドメイン: 販売、顧客、製品のデータのレイク。
  • ドメイン内のゾーン: 個々のチームの場合、またはマネージド データ契約を提供するため。
  • アセット: Cloud Storage バケットと BigQuery データセットのいずれかに格納されたデータ。Dataplex メッシュとは別の Google Cloud プロジェクトに存在できます。

このシナリオを拡張するには、ゾーン内のデータを未加工のレイヤとキュレートされたレイヤに分割します。このアプローチを完遂するには、ドメインと未加工またはキュレート済のデータの置換ごとにゾーンを作成します。

  • 未加工の販売
  • キュレート済の販売
  • 未加工のお客様
  • キュレート済のお客様
  • 未加工の製品
  • キュレート済の製品

準備状況に基づくデータ階層化

別の一般的なユースケースとしては、データ エンジニアのみがデータにアクセスでき、その後、データ サイエンティストとデータ アナリストが調整して利用できる場合があります。この場合、次のものを持つようにレイクを設定できます。

  • エンジニアがアクセスできるデータの未加工のゾーン。
  • データ サイエンティストとアナリストが利用できるデータのキュレートされたゾーン。

レイクとゾーン

次のステップ