本文档可帮助您了解 Dataform 中代码库的概念。
每个 Dataform 代码库都包含构成 SQL 工作流的 SQLX 和 JavaScript 文件的集合,以及 Dataform 配置文件和软件包。您在开发工作区中与代码库的内容进行交互。
Dataform 会在 Dataform 页面上按代码库 ID 的字母顺序显示您的代码库。您可以对它们进行排序和过滤。
每个 Dataform 代码库都与一个服务帐号相关联。您可以在创建代码库时选择服务帐号,也可以稍后修改服务帐号。
默认情况下,Dataform 使用根据项目编号衍生的服务帐号,其格式如下:
service-YOUR_PROJECT_NUMBER@gcp-sa-dataform.iam.gserviceaccount.com
Dataform 使用 Git 记录更改和管理文件版本。每个 Dataform 代码库都对应一个 Git 代码库。创建 Dataform 代码库后,您可以将其连接到远程 GitHub、GitLab 或 Bitbucket 代码库。
在 Dataform 代码库中,Dataform 存储代码库代码。在关联的代码库中,第三方代码库会存储代码库代码。Dataform 与第三方代码库交互,使您能够在 Dataform 开发工作区中修改和执行其内容。
Dataform 代码库页面包含以下组件:
- “开发工作区”标签页
- 显示代码库中创建的开发工作区。
- 版本配置标签页
- 用于检查、创建、修改和删除版本。
- 工作流执行日志标签页
- 显示 Dataform 工作流执行日志。
- 工作流配置标签页
- 用于检查、创建、修改和删除工作流配置。
- “设置”标签页
- 显示代码库的名称和位置。对于连接到第三方 Git 代码库的代码库,显示第三方代码库来源、默认分支名称和密钥令牌。显示用于将代码库关联与第三方 Git 代码库以及修改 Git 连接的按钮。
- “创建开发工作区”按钮
- 允许您创建开发工作区。
创建并初始化开发工作区后,您可以修改 dataform.json
文件以配置代码库的以下 Dataform 设置:
- 默认数据库(Google Cloud 项目 ID)
- 默认架构(BigQuery 数据集 ID)
- 默认的 BigQuery 位置
- 断言的默认架构(BigQuery 数据集 ID)
- 仓库,必须设置为
bigquery
- 编译期间可供项目代码使用的用户定义变量
如需详细了解 Dataform 代码库设置,请参阅 Dataform 核心参考文档中的 IProjectConfig。
后续步骤
- 如需了解如何创建和初始化工作区,请参阅创建工作区。
- 如需了解如何配置 Dataform 代码库设置,请参阅配置 Dataform 设置。
- 如需了解如何将 Dataform 代码库关联到第三方 Git 代码库,请参阅连接到第三方 Git 代码库。
- 如需了解如何查看工作流执行日志,请参阅监控执行日志。
- 如需了解如何创建 Dataform 编译版本,请参阅创建编译版本。
- 如需详细了解代码库大小对 Dataform 中的开发有何影响,请参阅代码库大小概览。
- 如需了解如何使用工作流配置安排 Dataform 执行,请参阅使用工作流配置安排执行。
- 如需详细了解如何在 Dataform 中拆分代码库,请参阅拆分代码库简介。