此页面由 Cloud Translation API 翻译。

在代码库中构建代码结构

本文档介绍了在 Dataform 代码库的根 definitions 目录中构建和命名 SQL 工作流文件的最佳实践。definitions 目录的推荐结构反映了 SQL 工作流的各个阶段。您可以采用任何符合业务需求的结构。

出于以下原因，您可能希望在 definitions 目录中构建 SQL 工作流代码：

通过为工作流的特定部分指定团队，改善代码库协作。
在发生组织变更时，提高 SQL 工作流的可维护性。
改进代码库导航功能。
提高代码库的可伸缩性。
最大限度地减少团队的管理开销。

`definitions` 目录的推荐结构

Dataform 代码库中的根 definitions 目录包含用于创建 SQL 工作流元素的代码。您可以将 definitions 目录中的文件整理成反映工作流结构的目录结构。

开发 SQL 工作流时，您需要声明源表并对其进行转换，以创建可用于业务或分析用途的输出表。

您可以区分 SQL 工作流的三个关键阶段：

声明数据源
源数据的转换
转换后的源数据的输出表定义

definitions 目录中的以下子目录结构反映了 SQL 工作流的关键阶段：

sources: 数据源声明和源数据的基本转换，例如过滤。
intermediate: 在您使用转换后的数据定义 outputs 表之前，从 sources 读取数据并转换数据的表和操作。表在 Dataform 将其执行到 BigQuery 后，通常不会再向其他进程或工具（例如商业智能 [BI] 工具）公开。
outputs: Dataform 在 BigQuery 中执行流程或工具（例如 BI）后，这些流程或工具所使用的表的定义。
extra: SQL 工作流主流水线之外的文件，例如，包含为进一步使用（例如机器学习）准备的工作流数据的文件。可选的自定义子目录。

`sources` 最佳实践

sources 子目录包含 SQL 工作流的第一阶段：声明和源数据的基本转换。

在 sources 子目录中，存储用于过滤、分类、转换或重命名列的数据源声明和表。

避免存储将来自多个来源的数据组合在一起的表。

转换存储在 intermediate 子目录中的表中的 sources 数据。

如果您要声明来自多个广告资源池（例如 Google Ads 或 Google Analytics [分析]）的数据源，请为每个广告资源池专门创建一个子目录。

以下示例展示了包含两个来源池的 sources 子目录结构：

definitions/
    sources/
        google_ads/
            google_ads_filtered.sqlx
            google_ads_criteria_metrics.sqlx
            google_ads_criteria_metrics_filtered.sqlx
            google_ads_labels.sqlx
            google_ads_labels_filtered.sqlx
        google_analytics/
            google_analytics_users.sqlx
            google_analytics_users_filtered.sqlx
            google_analytics_sessions.sqlx

如果您在同一架构中声明多个数据源表，则可以将其声明合并到单个 JavaScript 文件中。如需详细了解如何使用 JavaScript 创建数据源声明，请参阅使用 JavaScript 创建 Dataform 工作流。

以下代码示例展示了在一个 JavaScript 文件中声明的单个架构中的多个数据源：

[
  "source_table_1",
  "source_table_2",
  "source_table_3"
].forEach((name) =>
  declare({
    database: "gcp_project",
    schema: "source_dataset",
    name,
  })
);

为了防止数据源更改影响 SQL 工作流，您可以为每个数据源声明创建一个视图，例如 analytics_users_filtered.sqlx。该视图可以包含对源数据的基本过滤和格式设置。将视图存储在 sources 子目录中。

然后，在创建 intermediate 或 outputs 表时，请引用视图，而不是原始源表。通过这种方法，您可以测试源表。如果源表发生更改，您可以修改其视图，例如添加过滤条件或重新转换数据。

`intermediate` 最佳实践

intermediate 子目录包含 SQL 工作流的第二阶段：对一个或多个来源的源数据进行转换和汇总。

在 intermediate 子目录中，存储用于对来自一个或多个来源的源数据进行重大转换的文件（例如用于联接数据的表）。sourcesintermediate 子目录中的表通常会从源表或其他 intermediate 表中查询数据。

使用 intermediate 表创建 outputs 表。通常，在 Dataform 将 intermediate 表执行到 BigQuery 后，这些表不会用于其他用途（例如数据分析）。您可以将 intermediate 表视为用于创建输出表的数据转换逻辑。

我们建议您记录并测试所有 intermediate 表。

`outputs` 最佳实践

outputs 子目录包含 SQL 工作流的最后一阶段：根据转换后的数据创建出于业务目的的输出表。

在 outputs 目录中，存储您计划在 Dataform 将其执行到 BigQuery 后在其他流程或工具中使用的表，例如报告或信息中心。outputs 目录中的表通常会从 intermediate 表中查询数据。

按 outputs 表所关联的业务实体（例如营销、订单或分析）对 outputs 表进行分组。为每个业务实体分配一个子目录。

如需在 BigQuery 中单独存储输出表，您可以为输出表配置专用架构。如需了解如何配置表架构，请参阅配置其他表设置。

以下示例展示了包含 sales 和 marketing 商家实体的 outputs 子目录结构：

definitions/
    outputs/
        orders/
            orders.sqlx
            returns.sqlx
        sales/
            sales.sqlx
            revenue.sqlx
        marketing/
            campaigns.sqlx

我们建议您记录并测试所有 outputs 表。

命名策略

Dataform 中的所有文件的名称都必须符合 BigQuery 表命名准则。

我们建议 Dataform 仓库中 definitions 目录中的文件名反映子目录结构。

在 sources 子目录中，文件名应指向与该文件相关的源代码。将来源的名称添加为文件名的前缀，例如 analytics_filtered.sqlx

在 intermediate 子目录中，文件名应标识子目录，以便协作者能够清晰区分 intermediate 文件。选择一个唯一的词根，并仅将其应用于 intermediate 目录中的文件。例如 stg_ads_concept.sqlx。

在 outputs 子目录中，文件名应简洁明了，例如 orders.sqlx。如果您在不同的实体子目录中有名称相同的 outputs 表，请添加用于标识实体的前缀，例如 sales_revenue.sqlx 和 ads_revenue.sqlx。

以下示例展示了 definitions 目录内的子目录结构，其中文件名符合建议的命名策略：

definitions/
    sources/
        google_analytics.sqlx
        google_analytics_filtered.sqlx
    intermediate/
        stg_analytics_concept.sqlx
    outputs/
        customers.sqlx
        sales/
            sales.sqlx
            sales_revenue.sqlx
        ads/
            campaigns.sqlx
            ads_revenue.sqlx

后续步骤

如需详细了解 Dataform 中的 SQL 工作流，请参阅 SQL 工作流简介。
如需详细了解 Dataform 代码库，请参阅创建代码库。
如需详细了解如何拆分代码库，请参阅代码库拆分简介。

在代码库中构建代码结构

definitions 目录的推荐结构

sources 最佳实践

intermediate 最佳实践

outputs 最佳实践