Dataform 核心参考文档

本文档介绍了 Dataform 核心的方法、属性和配置选项。您可以在 SQLX 和 JavaScript 文件中使用 Dataform 核心。

assert()

assert (name: string, query?: AContextable)

向已编译的图表添加 Dataform 断言。

仅在 /definitions 目录中可用。

示例:

// definitions/file.js

assert("name").query(ctx => "select 1");

CommonContext

在评估可感知上下文的 SQL 代码(例如在 SQLX 文件中)或将 Contextable 参数与 Dataform 核心搭配使用时,可以使用上下文方法。

database () => string
返回此数据集的数据库(如果适用)。
name () => string
返回此表的名称。
ref (ref: Resolvable | string[], rest: string[]) => string
引用另一个操作,将其添加为此操作的依赖项,返回要在 from 表达式中使用的有效 SQL。

此函数可使用 Resolvable 对象调用,例如: ${ref({ name: "name", schema: "schema", database: "database" })}

您还可以使用 "database""schema""name" 值的各个实参调用此函数。如果仅提供两个值,则系统会使用默认数据库,并将值解读为 "schema""name"。如果只提供一个值,系统会使用默认数据库和架构,并将提供的值解读为“name”。

${ref("database", "schema", "name")} ${ref("schema", "name")} ${ref("name")}
resolve (ref: Resolvable | string[], rest: string[]) => string
ref 类似,但不会将引用的操作添加为此操作的依赖项。
self () => string
等同于 resolve(name())

返回一个有效的 SQL 字符串,可用于引用此操作生成的表。

schema () => string
返回此数据集的架构。

可感知上下文

可上下文化参数可以为其泛型类型 T 传递一个简单值,也可以传递一个使用此类操作的上下文对象调用的函数。

T | (ctx: Context) => T

Dataform

包含 IProjectConfig 对象的全局变量。获取 IProjectConfig 属性时需要使用此参数,例如:

dataform.projectConfig.vars.myVariableName === "myVariableValue"

declare()

declare (dataset: dataform.ITarget)

将数据集声明为 Dataform 数据源。

仅在 /definitions 目录中可用。

示例:

// definitions/file.js

declare({name: "a-declaration"})

IActionConfig

定义应用于 SQL 工作流操作的 Dataform 代码和依赖项。

tags string[]

应用于标记操作的用户定义的标记列表。

dependencies Resolvable| Resolvable[]

操作的依赖项。

disabled boolean

如果设置为 true,系统将不会执行此操作。不过,您仍然可以依赖该操作。非常适合临时关闭已损坏的操作。

IAssertionConfig

assertion 操作类型的配置选项。

database string
用于为此断言创建相应视图的数据库(Google Cloud 项目 ID)。
description string
此断言的说明。
disabled boolean
如果设置为 true,则系统不会执行此操作。 您仍然可以依赖该操作。这对于暂时关闭已损坏的操作很有用。
hermetic boolean
声明此操作是否是密封的。如果操作的所有依赖项都已明确声明,则该操作是密封的。

如果此操作依赖于未声明为依赖项的来源中的数据,请将 hermetic 设置为 false。否则,请将其设置为 true

schema string
用于为此断言创建相应视图的架构(BigQuery 数据集)。
tags string[]
应用于此操作的用户定义标签的列表。

IBigQueryOptions

BigQuery 专用仓库选项。

additionalOptions
视图具体化视图选项的键值对。

某些选项(例如 partitionExpirationDays)具有专门的类型/有效性检查字段。对于此类选项,请使用专用字段。

字符串值必须用英文双引号括起来,例如: additionalOptions: {numeric_option: "5"string_option: '"string-value"'}

如果选项名称包含特殊字符,请将名称括在引号中,例如:additionalOptions: { "option-name": "value" }

clusterBy string[]
用于按键对分区进行分组的键。
labels
BigQuery 标签的键值对。

如果标签名称包含特殊字符(例如连字符),请将其名称括起来,例如 labels: { "label-name": "value" }.

partitionBy string
用于对表进行分区的键。 通常是时间戳或日期列的名称。
partitionExpirationDays number
BigQuery 在每个分区中存储数据的天数。该设置适用于表中的所有分区,但系统会根据分区时间独立计算每个分区的设置。
requirePartitionFilter boolean
声明分区表是否需要用于过滤分区列的 WHERE 子句谓词过滤条件。
updatePartitionFilter string
用于确定何时应用增量更新的基于 SQL 的过滤条件。

IColumnsDescriptor

描述表中的列。

{ [name]: string | IRecordDescriptor }

IDeclarationConfig

declaration 操作类型的配置选项。

columns IColumnsDescriptor
表中各列的说明。
database string
用于创建源表的数据库(Google Cloud 项目 ID)已存在。
description string
表的说明。
schema string
源表所在的架构(BigQuery 数据集)。

IDependenciesConfig

定义 SQL 工作流操作的依赖项。

dependencies Resolvable| Resolvable[]

此操作的一个或多个显式依赖项。依赖项操作将在依赖项操作之前运行。 通常,此值会保持未设置状态,因为大多数依赖项都是在使用 ref 函数时声明的副产品。

hermetic boolean

声明此操作是否是密封的。如果操作的所有依赖项都已明确声明,则该操作是封闭的。如果此操作依赖于未声明为依赖项的来源中的数据,则应将 hermetic 显式设置为 false。 否则,如果此操作仅依赖于明确声明的依赖项中的数据,则应将其设置为 true

IDocumentableConfig

定义数据集及其列的说明。

columns IColumnsDescriptor

数据集中列的说明。

description string

数据集的说明。

INamedConfig

定义 SQL 工作流操作的类型和名称。

type string

操作的类型。

name string

操作的名称。

IOperationConfig

operations 操作类型的配置选项。

columns IColumnsDescriptor
表中各列的说明。
database string
用于创建此操作输出的数据库(Google Cloud 项目 ID)。
description string
表的说明。
disabled boolean
如果设置为 true,则系统不会执行此操作。 您仍然可以依赖该操作。 这对于暂时关闭已损坏的操作很有用。
hasOutput boolean
声明此 operations 操作会创建一个可使用 ref 函数引用的表。

如果设置为 true,此操作将使用 self() 上下文函数创建具有其配置名称的表。

例如: create or replace table ${self()} as select ...
hermetic boolean
声明此操作是否是密封的。如果操作的所有依赖项都已明确声明,则该操作是密封的。

如果此操作依赖于未声明为依赖项的来源中的数据,请将 hermetic 设置为 false。否则,请将其设置为 true

schema string
用于创建此操作输出的架构(BigQuery 数据集)。
tags string[]
应用于此操作的用户定义标签的列表。

IProjectConfig

包含 Dataform 代码库的编译设置。

defaultDatabase string
必需。默认数据库(Google Cloud 项目 ID)。
defaultSchema string
必需。默认架构(BigQuery 数据集 ID)。
defaultLocation string
必需。要使用的默认 BigQuery 位置。 如需详细了解 BigQuery 位置,请参阅 https://cloud.google.com/bigquery/docs/locations。
assertionSchema string
必需。断言的默认架构(BigQuery 数据集 ID)。
vars map (key: string, value: string)
可选。在编译期间可供项目代码使用的用户定义变量。 包含一系列 "key": value 对的对象。示例:{ "name": "wrench", "mass": "1.3kg", "count": "3" }
databaseSuffix string
可选。应附加到所有数据库(Google Cloud 项目 ID)名称的后缀。
schemaSuffix string
可选。应附加到所有架构(BigQuery 数据集 ID)名称的后缀。
tablePrefix string
可选。应附加到所有表名称的前缀。
warehouse string
必需。必须设置为 bigquery

您可以在代码库级在工作流设置中设置 IProjectConfig 属性

您可以为个别表替换 defaultSchemadefaultDatabase 属性

您可以在 SQLX 或 JavaScript 文件中的 SQL SELECT 语句中访问所有 IProjectConfig 属性。

以下代码示例展示了在工作流设置中使用 projectConfig.vars 属性设置的 myVariableName 自定义编译变量,该变量在 SQLX 文件中的 SELECT 语句中进行访问:

  config { type: "view" }
  SELECT ${when(
    dataform.projectConfig.vars.myVariableName === "myVariableValue",
    "myVariableName is set to myVariableValue!",
    "myVariableName is not set to myVariableValue!"
  )}

如需详细了解如何替换各个编译结果的项目配置设置,请参阅 Dataform API 中的 projects.locations.repositories.compilationResults#CodeCompilationConfig REST 资源。

IRecordDescriptor

描述包含嵌套列的表中的结构体、对象或记录。

bigqueryPolicyTags string | string[]
应用于此列的 BigQuery 政策标记的完整标识符。BigQuery 政策标记的完整标识符包括项目名称、位置和分类

例如:"projects/1/locations/eu/taxonomies/2/policyTags/3"

BigQuery 支持每个列添加一个标记。
columns IColumnsDescriptor
结构体、对象或记录中的列的说明。
description string
结构体、对象或记录的说明。

ITableAssertions

在表定义中创建断言的选项。

nonNull string | string[]
永远不会为 NULL 的列。

如果设置了此属性,如果任何行包含这些列的 NULL 值,相应的断言将失败。

rowConditions string[]
对表中的所有行都应成立的一般条件。

如果设置了此标志,则如果任何行违反了其中任何条件,相应的断言都会失败。

uniqueKey string | string[]
构成表的唯一键索引的列。

如果设置了此属性,则如果表中有多行具有所有这些列的相同值,则生成的断言将失败。

uniqueKeys []
列的组合,其中每列都构成表的唯一键索引。

如果已设置,则如果表中存在多个行,且唯一键中的所有列具有相同的值,则生成的断言会失败。

ITableConfig

table 操作的配置选项,包括 tableviewincremental 表格类型。

扩展了 IActionConfigIDependenciesConfigIDocumentableConfigINamedConfigITargetableConfig

assertions ITableAssertions
要在表上运行的断言。

如果已配置,系统会自动创建相关断言并将其作为此表的依赖项运行。

bigquery IBigQueryOptions
BigQuery 专用仓库选项。
columns IColumnsDescriptor
表中各列的说明。
database string
用于创建此操作输出的目标数据库(Google Cloud 项目 ID)。
description string
表的说明。
disabled boolean
如果设置为 true,则系统不会执行此操作。 您仍然可以依赖该操作。 这对于暂时关闭已损坏的操作很有用。
hermetic boolean
声明此操作是否是密封的。如果操作的所有依赖项都已明确声明,则该操作是封闭的。

如果此操作依赖于未声明为依赖项的来源中的数据,请将 hermetic 设置为 false。否则,请将其设置为 true

materialized boolean
仅当表格类型为 view 时有效。

如果设为 true,系统将会创建具体化视图。

protected boolean
仅适用于 incremental table 类型。

如果设置为 true,运行此操作会忽略 full-refresh 选项。这对于基于暂时性数据构建的表非常有用,可确保历史数据永远不会丢失。

schema string
用于创建此操作输出的架构(BigQuery 数据集)。
tags string[]
应用于此操作的用户定义标签的列表。
type TableType
表的类型。
uniqueKey string[]
增量表的合并条件的唯一键。

如果已配置,系统会更新具有匹配唯一键的记录,而不是插入新行。

ITableContext

在评估可感知上下文的 SQL 代码(例如在 SQLX 文件中)或将 Contextable 参数与 Dataform 核心搭配使用时,可以使用上下文方法。

incremental () => boolean
如果当前上下文表明表将以增量方式构建,则返回 true。
name () => string
返回此表的完全限定名称。
ref (ref: Resolvable | string[], rest: string[]) => string
引用另一个操作,将其添加为此操作的依赖项,返回要在 from 表达式中使用的有效 SQL。

此函数可以使用 Resolvable 对象调用,例如:

${ref({ name: "name", schema: "schema", database: "database" })}

您还可以使用 "database""schema""name" 值的各个实参调用此函数。

如果仅提供两个值,则系统会使用默认数据库,并将值解读为 "schema""name"

如果只提供一个值,则使用默认数据库架构,并将提供的值解读为“name”。

${ref("database", "schema", "name")} ${ref("schema", "name")} ${ref("name")}
resolve (ref: Resolvable | string[], rest: string[]) => string
ref 类似,但它会解析所提供的引用,而不是添加依赖项,以便在 SQL 中使用该引用,例如在 `from` 表达式中。
self () => string
等同于 resolve(name())

返回一个有效的 SQL 字符串,可用于引用此操作生成的表。

when (cond: boolean, trueCase: string, falseCase: string) => string
if 条件的简写形式。 等同于 cond ? trueCase : falseCase

falseCase 是可选的,默认值为空字符串。

ITarget

对 BigQuery 中表的引用。

database string
name string
schema string

ITargetableConfig

定义 SQL 工作流操作的目标数据库和架构。

database string

应在其中创建此操作输出结果的数据库。必须设置为 BigQuery。

schema string

应在其中创建此操作输出的架构。

operate()

operate (name: string, queries?: Contextable)

定义 SQL 操作。

仅在 /definitions 目录中可用。

示例:

// definitions/file.js

operate("an-operation", ["SELECT 1", "SELECT 2"])

publish()

publish (name: string, queryOrConfig?: Contextable | ITableConfig)

创建表或视图。

仅在 /definitions 目录中可用。

示例:

// definitions/file.js

publish("published-table", {
    type: "table",
    dependencies: ["a-declaration"],
  }).query(ctx => "SELECT 1 AS test");

可解决

可解析项可以是表名称(例如 string),也可以是描述关系的完整路径的对象。

string | ITarget

TableType

支持的表格操作类型。

系统会将类型为 view 的表创建为视图。

类型为 table 的表将被创建为表。

类型为 incremental 的表必须包含 where 子句。如需了解详情,请参阅配置增量表