企業には、データレイク、データ ウェアハウス、データマートにわたって分散されたデータがあります。Dataplex Universal Catalog は、分散データを統合し、さまざまなデータアセットに論理構造を適用することでデータ ガバナンスを容易にするデータ ファブリックです。
Dataplex Universal Catalog は、レイク、ゾーン、アセット、エントリなどの構造を使用して、基盤となるデータ ストレージ システムを抽象化します。
レイク
レイクは、データドメインまたはビジネス ユニットを表す論理的な構造です。たとえば、グループの使用状況に基づいてデータを整理するために、部門(たとえば、小売、販売、財務)ごとにレイクを設定できます。
ゾーン
ゾーンはレイク内のサブドメインです。以下によってデータを分類するのに役立ちます。
- ステージ: たとえば、ランディング、未加工、キュレート済のデータの分析、キュレート済のデータ サイエンスなど。
- 使用状況: データ契約など。
- 制限事項: セキュリティ管理やユーザー アクセスレベルなど。
ゾーンには次の 2 種類があります。
未加工ゾーン: 未加工フォーマットで、厳密な型チェックの対象ではないデータが含まれます。
キュレート済ゾーン: クリーニングされ、フォーマットされ、分析される準備ができているデータが含まれます。データは列指向の Hive パーティション分割であり、Parquet、Avro、Orc ファイル、または BigQuery のテーブルに保存されます。データには型チェックが行われます。たとえば、CSV ファイルは SQL アクセスのパフォーマンスがよくないため、使用を禁止します。
アセット
アセットは、Cloud Storage または BigQuery のいずれかに保存されているデータにマッピングします。別々の Google Cloud プロジェクトに保存されているデータをアセットとして単一のゾーンにマッピングできます。
エントリ
エンティティは、構造化データと半構造化データ(テーブルなど)と非構造化データ(ファイルセットなど)のメタデータを表します。