關於資料湖泊和可用區

企業的資料通常分散在資料湖泊、資料倉儲和資料市集中。Dataplex Universal Catalog 是一種 data fabric,可統合分散的資料,並將邏輯建構套用至不同資料資產,簡化資料治理程序。

Dataplex Universal Catalog 會使用湖泊、儲存區、資產和項目等建構函式,將基礎資料儲存系統抽象化。

湖泊

湖泊是代表資料網域或業務單位的邏輯建構體。舉例來說,如要依群組使用情況整理資料,您可以為每個部門 (例如零售、銷售、財務) 設定湖泊。

可用區

儲存區是湖泊中的子網域,可用於依下列項目分類資料:

  • 階段:例如登陸、原始、精選資料分析和精選資料科學
  • 用途:例如資料合約
  • 限制:例如安全性控管和使用者存取層級

儲存區有兩種類型:

  • 原始資料儲存區:含有原始格式的資料,不需接受嚴格的類型檢查。

  • 整理後資料儲存區:含有經過清理的格式化資料,這類內容已可用於數據分析。資料為單欄式,並以 Hive 分區,儲存在 Parquet、Avro、Orc 檔案或 BigQuery 資料表中。資料會經過型別檢查,例如禁止使用 CSV 檔案,因為這類檔案的 SQL 存取效能不佳。

資產

資產會對應至儲存在 Cloud Storage 或 BigQuery 的資料。您可以將儲存在不同 Google Cloud 專案中的資料對應為資產,並放入單一區域。

實體

實體代表結構化和半結構化資料 (例如資料表) 的中繼資料,以及非結構化資料 (例如檔案集)。

後續步驟