代码库简介

本文档可帮助您了解 Dataform 中代码库的概念。

每个 Dataform 代码库都包含构成 SQL 工作流的 SQLX 和 JavaScript 文件的集合,以及 Dataform 配置文件和软件包。您在开发工作区中与代码库的内容进行交互。

Dataform 会在 Dataform 页面上按代码库 ID 的字母顺序显示您的代码库。您可以对它们进行排序和过滤。

转到 Dataform

每个 Dataform 代码库都与一个服务帐号相关联。您可以在创建代码库时选择服务帐号,也可以稍后修改服务帐号

默认情况下,Dataform 使用根据项目编号衍生的服务帐号,其格式如下:

service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com

Dataform 使用 Git 记录更改和管理文件版本。每个 Dataform 代码库都对应一个 Git 代码库。创建 Dataform 代码库后,您可以将其连接到远程 GitHub、GitLab 或 Bitbucket 代码库。

在 Dataform 代码库中,Dataform 存储代码库代码。在关联的代码库中,第三方代码库会存储代码库代码。Dataform 与第三方代码库交互,使您能够在 Dataform 开发工作区中修改和执行其内容。

Dataform 代码库页面包含以下组件:

“开发工作区”标签页
显示代码库中创建的开发工作区。
版本配置标签页
用于检查、创建、修改和删除版本
工作流执行日志标签页
显示 Dataform 工作流执行日志
工作流配置标签页
用于检查、创建、修改和删除工作流配置
“设置”标签页
显示代码库的名称和位置。对于连接到第三方 Git 代码库的代码库,显示第三方代码库来源、默认分支名称和密钥令牌。显示用于将代码库关联与第三方 Git 代码库以及修改 Git 连接的按钮。
“创建开发工作区”按钮
允许您创建开发工作区

创建并初始化开发工作区后,您可以修改 dataform.json 文件以配置代码库的以下 Dataform 设置:

  • 默认数据库(Google Cloud 项目 ID)
  • 默认架构(BigQuery 数据集 ID)
  • 默认的 BigQuery 位置
  • 断言的默认架构(BigQuery 数据集 ID)
  • 仓库,必须设置为 bigquery
  • 编译期间可供项目代码使用的用户定义变量

如需详细了解 Dataform 代码库设置,请参阅 Dataform 核心参考文档中的 IProjectConfig

后续步骤