English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

联系我们免费开始使用吧

此页面由 Cloud Translation API 翻译。

数据湖和可用区简介

企业的数据通常分布在数据湖、数据仓库和数据集市中。Dataplex Universal Catalog 是一种数据结构脉络，它通过将逻辑结构应用于不同的数据资产，来统一分布式数据并简化数据治理。

Dataplex Universal Catalog 通过使用以下结构来抽象化底层数据存储系统：数据湖、区域、资产和条目。

湖

数据湖是代表数据域或业务单元的逻辑结构。例如，如果您需要根据群组使用情况整理数据，则可以为每个部门（例如零售、销售、财务）设置一个数据湖。

可用区

区域是数据湖中的子网域，可用于按以下条件对数据进行分类：

阶段：例如，着陆、原始、精选数据分析和精选数据科学
使用情况：例如，数据合同
限制：例如，安全控制措施和用户访问权限级别

区域有两种类型：

原始区域：包含原始格式的数据，这类数据不需要进行严格的类型检查。
精选区域：包含经过清理、格式处理，可直接用于分析的数据。数据采用列式存储，经过 Hive 分区，并存储在 Parquet、Avro、Orc 文件或 BigQuery 表中。数据会接受类型检查，例如，禁止使用 CSV 文件，因为它们在 SQL 访问方面的性能不如其他文件。

资产

资产会映射到存储在 Cloud Storage 或 BigQuery 中的数据。您可以将存储在不同 Google Cloud 项目中的数据作为资产映射到单个区域。

条目数

实体表示结构化数据和半结构化数据（例如，表）以及非结构化数据（例如，文件集）的元数据。

后续步骤

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-10-02。