使用 SQL 在 BigQuery 中开发可扩缩的数据转换流水线并将其付诸应用。
在 BigQuery 中开发精选、最新、可信和有记录的表
使数据分析师和数据工程师能够在同一代码库中协作
使用 SQL 在 BigQuery 中构建可扩缩的数据流水线
与 GitHub 和 GitLab 集成
使表保持最新,而无需管理基础架构
优势
在单一环境中使用 SQL 开发可扩缩的数据流水线并将其付诸应用,无需额外的依赖项。
Dataform 使数据团队可以按照软件工程最佳实践(例如版本控制、环境、测试和文档)管理 SQL 代码和数据资产的定义。
Dataform 摆脱了构建 SQL 流水线的复杂性。数据分析师可以使用 SQL 管理依赖项、配置数据质量测试以及编排复杂的流水线。
主要特性
Dataform Core 使数据工程师和数据分析师只需使用 SQL 便可在一个代码库中集中创建表定义、配置依赖项、添加列说明和配置数据质量断言。
Dataform Core 函数能够以增量方式逐步采用,无需修改现有代码。
Dataform Core 是开源的,可以在本地使用,因此用户能够摆脱锁定并灵活用于更高级的用例。
Dataform 会处理运行基础架构,以根据表之间的依赖关系并使用最新版本的代码来更新表。通过 Dataform 集成可以无缝跟踪沿袭和数据信息。手动触发 SQL 工作流,或通过 Cloud Composer、Workflows 或第三方服务安排 SQL 工作流。
定义表、修复实时错误消息所述问题、直观呈现依赖项、将更改提交到 Git,并在几分钟内安排流水线,所有这一切都可通过一个界面完成,并且全程无需离开网络浏览器。将您的代码库与第三方提供商(例如 GitHub 和 GitLab)连接。从 IDE 提交更改并推送或打开拉取请求。
文档