此页面由 Cloud Translation API 翻译。

Dataform 核心参考文档

本文档介绍了 Dataform 核心的方法、属性和配置选项。您可以在 SQLX 和 JavaScript 文件中使用 Dataform 核心。

assert()

assert (name: string, query?: AContextable)

向已编译的图添加 Dataform 断言。

仅在 /definitions 目录中提供。

示例：

// definitions/file.js

assert("name").query(ctx => "select 1");

CommonContext

在评估可设置上下文的 SQL 代码（例如在 SQLX 文件中）时，或者在使用带有 Dataform 核心的 Contextable 实参时，可以使用上下文方法。

`database`	`() => string`
	返回相应数据集的数据库（如果适用）。
`name`	`() => string`
	返回相应表的名称。
`ref`	`(ref: Resolvable \| string[], rest: string[]) => string`
	引用另一个操作，将其作为依赖项添加到此操作，返回有效的 SQL 以在 `from` 表达式中使用。此函数可使用 `Resolvable` 对象进行调用，例如： `${ref({ name: "name", schema: "schema", database: "database" })}` 您也可以使用 `"database"`、`"schema"` 和 `"name"` 值的各个实参来调用此函数。如果仅提供两个值，则使用默认数据库，并将这两个值解读为 `"schema"` 和 `"name"`。如果仅提供一个值，系统会使用默认数据库和架构，并将提供的值解读为“名称”。 `${ref("database", "schema", "name")} ${ref("schema", "name")} ${ref("name")}`
`resolve`	`(ref: Resolvable \| string[], rest: string[]) => string`
	与 `ref` 类似，但不会将引用的操作添加为此操作的依赖项。
`self`	`() => string`
	等同于 `resolve(name())`。返回一个有效的 SQL 字符串，可用于引用此操作生成的表。
`schema`	`() => string`
	返回相应数据集的架构。

Contextable

可提供上下文的实参可以传递其泛型类型 T 的纯值，也可以传递使用相应操作类型的上下文对象调用的函数。

T | (ctx: Context) => T

Dataform

包含 IProjectConfig 对象的全局变量。获取 IProjectConfig 属性时需要此权限，例如：

dataform.projectConfig.vars.myVariableName === "myVariableValue"

declare()

declare (dataset: dataform.ITarget)

将数据集声明为 Dataform 数据源。

仅在 /definitions 目录中提供。

示例：

// definitions/file.js

declare({name: "a-declaration"})

defaultLocation

defaultLocation 属性用于指定默认的 BigQuery 数据集位置。Dataform 使用此位置来处理您的代码并存储结果。此处理位置必须与 BigQuery 数据集的位置一致。不过，它不必与 Dataform 代码库位置一致。

如果您未设置 defaultLocation 属性，Dataform 会根据 SQL 查询引用的数据集来确定位置。其工作原理如下：

如果您的查询引用了同一位置的数据集，Dataform 会使用该位置。
如果查询引用了来自两个或更多个不同位置的数据集，则会发生错误。如需详细了解此限制，请参阅跨区域数据集复制。
如果查询未引用任何数据集，Dataform 的默认位置为 US 多区域。如需选择其他位置，请设置 defaultLocation 属性。或者，在查询中使用 @@location 系统变量。

如需了解详情，请参阅指定位置。

IActionConfig

定义应用于工作流操作的 Dataform 标记和依赖项。

`tags`	`string[]`
	用户定义的标记列表，用于标记操作。
`dependencies`	`Resolvable\| Resolvable[]`
	操作的依赖项。
`disabled`	`boolean`
	如果设置为 true，则不会运行此操作。不过，仍可以依赖该操作。可用于暂时关闭损坏的操作。

IAssertionConfig

assertion 操作类型的配置选项。

`database`	`string`
	要在其中为此断言创建相应视图的数据库（Google Cloud 项目 ID）。
`description`	`string`
	相应断言的说明。
`disabled`	`boolean`
	如果设置为 `true`，则不会运行此操作。该操作仍可依赖。可用于暂时关闭损坏的操作。
`hermetic`	`boolean`
	声明相应操作是否是密封的。如果某个操作的所有依赖项都已明确声明，则该操作是密封的。如果此操作依赖于未声明为依赖项的来源中的数据，请将 `hermetic` 设置为 `false`。否则，请将其设置为 `true`。
`schema`	`string`
	用于创建相应视图的架构（BigQuery 数据集）。
`tags`	`string[]`
	应用于相应操作的用户定义的标记的列表。

IBigQueryOptions

特定于 BigQuery 的数据仓库选项。

`additionalOptions`
	表、视图和具体化视图选项的键值对。例如，某些选项（如 `partitionExpirationDays`）具有专门的类型/有效性检查字段。对于此类选项，请使用专用字段。字符串值必须用英文双引号括起来，例如： `additionalOptions: {numeric_option: "5"`、`string_option: '"string-value"'}` 如果选项名称包含特殊字符，请使用引号将名称括起来，例如：`additionalOptions: { "option-name": "value" }`。
`clusterBy`	`string[]`
	用于按分区聚类的键。
`labels`
	BigQuery 标签的键值对。如果标签名称包含特殊字符（例如连字符），请使用英文引号将该名称引起来，例如 `labels: { "label-name": "value" }.`
`partitionBy`	`string`
	用于对表进行分区的键。通常是时间戳或日期列的名称。
`partitionExpirationDays`	`number`
	BigQuery 在每个分区中存储数据的天数。该设置适用于表中的所有分区，但系统会根据分区时间独立计算每个分区的设置。
`requirePartitionFilter`	`boolean`
	声明分区表是否需要用于过滤分区列的 `WHERE` 子句谓词过滤条件。
`updatePartitionFilter`	`string`
	在应用增量更新时使用的基于 SQL 的过滤条件。

IColumnsDescriptor

描述表格中的列。

{ [name]: string | IRecordDescriptor }

IDeclarationConfig

declaration 操作类型的配置选项。

`columns`	`IColumnsDescriptor`
	表中列的说明。
`database`	`string`
	要在其中创建源表的数据库（Google Cloud 项目 ID）。
`description`	`string`
	表的说明。
`schema`	`string`
	源表所在的架构（BigQuery 数据集）。

IDependenciesConfig

定义工作流操作的依赖项。

`dependencies`	`Resolvable\| Resolvable[]`
	相应操作的一个或多个显式依赖项。依赖项操作将在被依赖项操作之前运行。通常情况下，此属性会保持未设置状态，因为大多数依赖项都是通过使用 `ref` 函数声明的。
`hermetic`	`boolean`
	声明相应操作是否是密封的。如果某个操作的所有依赖项都已明确声明，则该操作是封闭的。如果此操作依赖于未声明为依赖项的来源中的数据，则应将 `hermetic` 显式设置为 `false`。否则，如果此操作仅依赖于明确声明的依赖项中的数据，则应将其设置为 `true`。

IDocumentableConfig

定义数据集及其列的说明。

`columns`	`IColumnsDescriptor`
	数据集内各列的说明。
`description`	`string`
	数据集的说明。

INamedConfig

定义工作流操作的类型和名称。

`type`	`string`
	操作的类型。
`name`	`string`
	操作的名称。

IOperationConfig

operations 操作类型的配置选项。

`columns`	`IColumnsDescriptor`
	表中列的说明。
`database`	`string`
	要在其中创建此操作的输出的数据库（Google Cloud 项目 ID）。
`description`	`string`
	表的说明。
`disabled`	`boolean`
	如果设置为 `true`，则不会运行此操作。该操作仍可依赖。可用于暂时关闭损坏的操作。
`hasOutput`	`boolean`
	声明此 `operations` 操作会创建一个可使用 `ref` 函数引用的表。如果设置为 `true`，此操作会使用 `self()` 上下文函数创建一个具有配置名称的表。例如： `create or replace table ${self()} as select ...`
`hermetic`	`boolean`
	声明相应操作是否是密封的。如果某个操作的所有依赖项都已明确声明，则该操作是密封的。如果此操作依赖于未声明为依赖项的来源中的数据，请将 `hermetic` 设置为 `false`。否则，请将其设置为 `true`。
`schema`	`string`
	用于创建相应操作输出的架构 (BigQuery 数据集)。
`tags`	`string[]`
	应用于相应操作的用户定义的标记的列表。

IProjectConfig

包含 Dataform 代码库的编译设置。

`defaultDatabase`	`string`
	必需。默认数据库（Google Cloud 项目 ID）。
`defaultSchema`	`string`
	必需。默认架构（BigQuery 数据集 ID）。
`defaultLocation`	`string`
	可选。Dataform 创建表的默认 BigQuery 位置。
`assertionSchema`	`string`
	必需。断言的默认架构（BigQuery 数据集 ID）。
`vars`	`map (key: string, value: string)`
	可选。在编译期间可供项目代码使用的用户定义变量。包含一系列 `"key": value` 对的对象。示例：`{ "name": "wrench", "mass": "1.3kg", "count": "3" }`。
`databaseSuffix`	`string`
	可选。应附加到所有数据库（Google Cloud 项目 ID）名称的后缀。
`schemaSuffix`	`string`
	可选。应附加到所有架构（BigQuery 数据集 ID）名称的后缀。
`tablePrefix`	`string`
	可选。应附加到所有表名称前面的前缀。
`warehouse`	`string`
	必需。必须设置为 `bigquery`。

您可以在代码库级工作流设置中设置 IProjectConfig 属性。

您可以替换各个表格的 defaultSchema 和 defaultDatabase 属性。

您可以在 SQLX 或 JavaScript 文件中访问 SQL SELECT 语句中的所有 IProjectConfig 属性。

以下代码示例展示了在 workflow settings 中设置的 myVariableName 自定义编译变量（带有 projectConfig.vars 属性），该变量在 SQLX 文件中的 SELECT 语句中被访问：

  config { type: "view" }
  SELECT ${when(
    dataform.projectConfig.vars.myVariableName === "myVariableValue",
    "myVariableName is set to myVariableValue!",
    "myVariableName is not set to myVariableValue!"
  )}

如需详细了解如何针对各个编译结果替换项目配置设置，请参阅 Dataform API 中的 projects.locations.repositories.compilationResults#CodeCompilationConfig REST 资源。

IRecordDescriptor

描述具有嵌套列的表中的结构、对象或记录。

`bigqueryPolicyTags`	`string \| string[]`
	应用于相应列的 BigQuery 政策标记的完整标识符。BigQuery 政策标记的完整标识符包括项目名称、位置和分类，例如：`"projects/1/locations/eu/taxonomies/2/policyTags/3"` BigQuery 支持为每个列添加一个标记。
`columns`	`IColumnsDescriptor`
	结构、对象或记录中列的说明。
`description`	`string`
	结构、对象或记录的说明。

ITableAssertions

用于创建断言（作为表定义的一部分）的选项。

`nonNull`	`string \| string[]`
	永远不能为 `NULL` 的列。如果设置了此参数，则当任何行包含相应列的 `NULL` 值时，对应的断言会失败。
`rowConditions`	`string[]`
	应适用于表中所有行的常规条件。如果设置了此参数，则当任何行违反了任何这些条件时，相应的断言会失败。
`uniqueKey`	`string \| string[]`
	构成表的唯一键索引的列。如果设置，则当表中有多行的这些列具有相同的值时，生成的断言会失败。
`uniqueKeys`	`[]`
	列的组合，每种组合都构成表的唯一键索引。如果设置，则当表中存在多行在唯一键中的所有列中具有相同值时，生成的断言会失败。

ITableConfig

针对 table 操作的配置选项，包括 table、view 和 incremental 表格类型。

扩展了 IActionConfig、IDependenciesConfig、IDocumentableConfig、INamedConfig 和 ITargetableConfig。

`assertions`	`ITableAssertions`
	要对表运行的断言。如果已配置，系统会自动创建相关断言并将其作为此表的依赖项运行。
`bigquery`	`IBigQueryOptions`
	特定于 BigQuery 的数据仓库选项。
`columns`	`IColumnsDescriptor`
	表中列的说明。
`database`	`string`
	要在其中创建此操作的输出的数据库（Google Cloud 项目 ID）。
`description`	`string`
	表的说明。
`disabled`	`boolean`
	如果设置为 `true`，则不会运行此操作。该操作仍可依赖。可用于暂时关闭损坏的操作。
`hermetic`	`boolean`
	声明相应操作是否是密封的。如果某个操作的所有依赖项都已明确声明，则该操作是封闭的。如果此操作依赖于未声明为依赖项的来源中的数据，请将 `hermetic` 设置为 `false`。否则，请将其设置为 `true`。
`materialized`	`boolean`
	仅在表类型为 `view` 时有效。如果设为 true，系统将创建具体化视图。
`onSchemaChange`	`onSchemaChange`
	仅在表类型为 `incremental` 时有效。 Dataform 检查 `SELECT` 查询以确定是否添加或移除了列后执行的操作。此功能处于预览版阶段。
`protected`	`boolean`
	仅允许用于 `incremental` 表类型。如果设置为 true，则运行此操作时会忽略 `full-refresh` 选项。这对于从临时数据构建的表非常有用，可用于验证历史数据是否永远不会丢失。
`schema`	`string`
	用于创建相应操作输出的架构 (BigQuery 数据集)。
`tags`	`string[]`
	应用于相应操作的用户定义的标记的列表。
`type`	`TableType`
	表的类型。
`uniqueKey`	`string[]`
	增量表的合并条件的唯一键。如果已配置，系统会更新具有匹配唯一键的记录，而不是插入新行。

ITableContext

在评估可设置上下文的 SQL 代码（例如在 SQLX 文件中）时，或者在将 Contextable 实参与 Dataform 核心搭配使用时，可以使用上下文方法。

`incremental`	`() => boolean`
	当当前上下文表明表将以增量方式构建时，返回 true。
`name`	`() => string`
	返回此表的完全限定名称。
`ref`	`(ref: Resolvable \| string[], rest: string[]) => string`
	引用另一个操作，将其作为依赖项添加到此操作，返回可在 FROM 表达式中使用的有效 SQL。可以使用 `Resolvable` 对象调用此函数，例如： `${ref({ name: "name", schema: "schema", database: "database" })}` 您也可以使用 `"database"`、`"schema"` 和 `"name"` 值的各个实参来调用此函数。如果仅提供两个值，系统会使用默认数据库，并将这两个值解读为 `"schema"` 和 `"name"`。如果仅提供一个值，则使用默认数据库架构，并将提供的值解读为“名称”。 `${ref("database", "schema", "name")} ${ref("schema", "name")} ${ref("name")}`
`resolve`	`(ref: Resolvable \| string[], rest: string[]) => string`
	与 `ref` 类似，但不是添加依赖项，而是解析提供的引用，以便在 SQL 中使用该引用，例如在 `from` 表达式中使用。
`self`	`() => string`
	等同于 `resolve(name())`。返回一个有效的 SQL 字符串，该字符串可用于引用此操作生成的表。
`when`	`(cond: boolean, trueCase: string, falseCase: string) => string`
	`if` 条件的简写形式。等同于 `cond ? trueCase : falseCase`。 `falseCase` 是可选的，默认值为空字符串。

ITarget

对 BigQuery 中某个表的引用。

`database`	`string`
`name`	`string`
`schema`	`string`

ITargetableConfig

定义工作流操作的目标数据库和架构。

`database`	`string`
	应在哪个数据库中创建此操作的输出。必须设置为 BigQuery。
`schema`	`string`
	应创建此操作的输出所用的架构。

onSchemaChange

设置 onSchemaChange 属性后，Dataform 会检查 SELECT 查询，以确定是否添加或移除了列。然后，Dataform 会执行 onSchemaChange 属性值指定的操作。您可以将操作设置为以下任一值：

IGNORE（默认）：忽略添加的列，并针对缺失的列显示错误。如果未设置 onSchemaChange，则这是架构更改时的默认行为。
FAIL：如果 Dataform 检测到任何架构更改，则停止操作，这有助于保持架构一致。
EXTEND：将查询中的新列添加到增量表中，并为之前的记录添加 NULL 值。如果查询中移除了原始架构中的列或缺少原始架构中的列，则显示错误。您可以使用此设置在运行时向增量表添加新列。
SYNCHRONIZE：将查询中的新列添加到增量表中，并为之前的记录添加 NULL 值。移除原始架构中存在但当前查询中缺失的列。

注意：SYNCHRONIZE 操作无法撤消，并且使用此选项移除列可能会导致数据丢失。
注意：不支持删除分区列和聚簇列，因为删除这些列可能会产生负面影响。如果仍要删除分区列或聚簇列，则使用 ALTER TABLE DROP COLUMN 语句进行处理。 Dataform 不会执行检查或验证来防止在分区列或聚簇列上运行 ALTER TABLE DROP COLUMN 语句。因此，如果您要舍弃此类列，请谨慎操作，并注意可能产生的负面影响。

operate()

operate (name: string, queries?: Contextable)

定义 SQL 操作。

仅在 /definitions 目录中提供。

示例：

// definitions/file.js

operate("an-operation", ["SELECT 1", "SELECT 2"])

publish()

publish (name: string, queryOrConfig?: Contextable | ITableConfig)

创建表或视图。

仅在 /definitions 目录中提供。

示例：

// definitions/file.js

publish("published-table", {
    type: "table",
    dependencies: ["a-declaration"],
  }).query(ctx => "SELECT 1 AS test");

可解决

可解析对象可以是表名（如 string），也可以是描述关系完整路径的对象。

string | ITarget

TableType

支持的表格操作类型。

类型为 view 的表将创建为视图。

类型为 table 的表格将创建为表格。

类型为 incremental 的表必须包含 where 子句。如需了解详情，请参阅配置增量表。

Dataform 核心参考文档 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

assert()

CommonContext

Contextable

Dataform

declare()

defaultLocation

IActionConfig

IAssertionConfig

IBigQueryOptions

IColumnsDescriptor

IDeclarationConfig

IDependenciesConfig

IDocumentableConfig

INamedConfig

IOperationConfig

IProjectConfig

IRecordDescriptor

ITableAssertions

ITableConfig

ITableContext

ITarget

ITargetableConfig

onSchemaChange

operate()

publish()

可解决

TableType

Dataform 核心参考文档