从 Cloud Storage 加载 Avro 数据

从 Cloud Storage 加载 Avro 文件

Avro 是一种开放源代码数据格式,它将序列化数据与数据的架构打包在同一文件中。

从 Cloud Storage 加载 Avro 数据时,可以将数据加载到新的表或分区中,也可以附加到或覆盖现有的表或分区。当数据加载到 BigQuery 时,它会转化为适用于 Capacitor 的列式格式(BigQuery 的存储格式)。

如果要将 Cloud Storage 中的数据加载到 BigQuery 表,则要包含该表的数据集必须与相应 Cloud Storage 存储分区位于同一区域或多区域位置。

如需详细了解如何从本地文件加载 Avro 数据,请参阅从本地数据源将数据加载到 BigQuery

Avro 的优势

Avro 是将数据加载到 BigQuery 的首选格式。与加载 CSV 和 JSON(换行符分隔)相比,加载 Avro 文件具有以下优势:

  • Avro 二进制格式:
    • 加载速度更快。即使数据块被压缩,也可以并行读取数据。
    • 无需输入或序列化。
    • 更容易解析,因为没有其他格式(如 ASCII)中存在的编码问题。
  • 将 Avro 文件加载到 BigQuery 时,系统会自动从自描述源数据中检索表架构。

Avro 架构

将 Avro 文件加载到 BigQuery 时,系统会自动使用源数据检索表架构。当 BigQuery 从源数据中检索架构时,将使用按字母顺序排列的最后一个文件。

例如,您在 Cloud Storage 中具有以下 Avro 文件:

gs://mybucket/00/
  a.avro
  z.avro
gs://mybucket/01/
  b.avro

此命令可通过单个 CLI 命令加载所有文件(以英文逗号分隔列表形式),而架构来源于 mybucket/01/b.avro

bq load \
--source_format=AVRO \
dataset.table \
"gs://mybucket/00/*.avro","gs://mybucket/01/*.avro"

在导入多个具有不同 Avro 架构的 Avro 文件时,所有架构都必须与 Avro 的架构解决方案兼容。

当 BigQuery 检测架构时,会将某些 Avro 数据类型转换为 BigQuery 数据类型,使其与 BigQuery SQL 语法兼容。如需了解详细信息,请参阅 Avro 转化

Avro 压缩

不支持压缩的 Avro 文件,但支持压缩的数据块。BigQuery 支持 DEFLATE 和 Snappy 编解码器。

所需权限

在将数据加载到 BigQuery 时,您需要拥有运行加载作业的权限,以及将数据加载到新的或现有的 BigQuery 表和分区的权限。如果要从 Cloud Storage 加载数据,您还需要拥有访问您的数据所在的存储分区的权限。

BigQuery 权限

将数据加载到 BigQuery 至少需要以下权限。如果要将数据加载到新的表或分区中,或者要覆盖或附加到表或分区,则必须具有这些权限。

  • bigquery.tables.create
  • bigquery.tables.updateData
  • bigquery.jobs.create

以下预定义的 Cloud IAM 角色包含 bigquery.tables.createbigquery.tables.updateData 权限:

  • bigquery.dataEditor
  • bigquery.dataOwner
  • bigquery.admin

以下预定义的 Cloud IAM 角色包含 bigquery.jobs.create 权限:

  • bigquery.user
  • bigquery.jobUser
  • bigquery.admin

此外,如果用户具有 bigquery.datasets.create 权限,则当该用户创建数据集时,系统会为其授予该数据集的 bigquery.dataOwner 访问权限。 借助 bigquery.dataOwner 访问权限,用户可以通过加载作业在数据集中创建和更新表。

如需详细了解 BigQuery 中的 Cloud IAM 角色和权限,请参阅访问权限控制

Cloud Storage 权限

为从 Cloud Storage 存储分区加载数据,您必须拥有 storage.objects.get 权限。如果要使用 URI 通配符,您还必须拥有 storage.objects.list 权限。

可以通过授予预定义的 Cloud IAM 角色 storage.objectViewer 来提供 storage.objects.getstorage.objects.list 权限。

向新表加载 Avro 数据

您可以通过以下方式向新表加载 Avro 数据:

  • 使用 GCP Console 或经典版网页界面
  • 使用 CLI 的 bq load 命令
  • 调用 jobs.insert API 方法并配置 load 作业
  • 使用客户端库

如需将 Avro 数据从 Cloud Storage 加载到新的 BigQuery 表中,请执行以下操作:

控制台

  1. 在 GCP Console 中打开 BigQuery 网页界面。
    转到 GCP Console

  2. 在导航面板的资源部分中,展开您的项目并选择数据集。

  3. 在窗口右侧的详细信息面板中,点击创建表。加载数据的过程与创建空表的过程相同。

    创建表

  4. 创建表页面的来源部分,执行以下操作:

    • 基于以下来源创建表部分,选择 Cloud Storage。

    • 在来源字段中,浏览找到或输入 Cloud Storage URI。请注意,GCP Console 不支持添加多个 URI,但支持使用通配符。Cloud Storage 存储分区必须与您要创建的表所属的数据集位于同一位置。

      选择文件

    • 对于文件格式,请选择 Avro

  5. 创建表页面的目标位置部分,执行以下操作:

    • 数据集名称部分,选择相应数据集。

      查看数据集

    • 确认表类型设置为原生表

    • 表名称字段中,输入您要在 BigQuery 中创建的表的名称。

  6. 架构部分中,无需执行任何操作。架构在 Avro 文件中为自描述形式。

  7. (可选)如需对表进行分区,请在分区和聚簇设置中选择相应选项:

    • 如需创建分区表,请点击不进行分区,选择按字段分区 (Partition by field),然后选择一个 DATETIMESTAMP 列。如果架构不包含 DATETIMESTAMP 列,则此选项不可用。
    • 如需创建提取时间分区表,点击不进行分区,然后选择按提取时间分区
  8. (可选)在分区过滤条件中,点击需要分区过滤条件框,要求用户添加 WHERE 子句以指定要查询的分区。需要分区过滤条件有可能减少费用并提高性能。如需了解详情,请参阅查询分区表。如果已选择不进行分区,则此选项不可用。

  9. (可选)如需聚簇该表,请在聚簇顺序框中,输入一到四个字段名称。目前,只有分区表支持聚簇。

  10. (可选)点击高级选项

    • 写入偏好设置部分,选中只写入空白表。此选项创建一个新表并向其中加载数据。
    • 允许的错误数部分,接受默认值 0 或输入包含可忽略的错误的最大行数。如果包含错误的行数超过此值,该作业将生成 invalid 消息并失败。
    • 未知值部分,取消选中忽略未知值。此选项仅适用于 CSV 和 JSON 文件。
    • 加密部分,点击客户管理的密钥以使用 Cloud Key Management Service 密钥。如果保留 Google 管理的密钥设置,BigQuery 将加密存储中的数据(静态数据)
  11. 点击创建表

经典版界面

  1. 转到 BigQuery 网页界面。
    转到 BigQuery 网页界面

  2. 在导航面板中,将鼠标悬停在数据集上,点击向下箭头图标 向下箭头图标图片,然后点击 Create new table。加载数据的过程与创建空表的过程相同。

  3. Create Table 页面的 Source Data 部分,执行以下操作:

    • 点击 Create from source
    • Location 部分选择 Cloud Storage,然后在来源字段中输入 Cloud Storage URI。请注意,BigQuery 网页界面不支持添加多个 URI,但支持使用通配符。Cloud Storage 存储分区必须与您要创建的表所属的数据集位于同一位置。
    • 对于 File format,请选择 Avro
  4. Destination Table 部分,执行以下操作:

    • Table name 部分,选择适当的数据集,然后在表名称字段中输入要在 BigQuery 中创建的表的名称。
    • 确认 Table type 设置为 Native table
  5. Schema 部分中,无需执行任何操作。架构在 Avro 文件中为自描述形式。

  6. (可选)在 Options 部分,执行以下操作:

    • Number of errors allowed 部分,接受默认值 0 或输入包含可忽略的错误的最大行数。如果包含错误的行数超过此值,该作业将生成 invalid 消息并失败。
    • Write preference 部分,选中 Write if empty。选择此选项可创建一个新表并向其中加载数据。
    • 如需对表进行分区,请执行以下操作:
      • 对于 Partitioning Type,点击 None 并选择 Day
      • 对于 Partitioning Field
      • 如需创建分区表,请选择一个 DATETIMESTAMP 列。如果架构不包含 DATETIMESTAMP 列,则此选项不可用。
      • 如需创建提取时间分区表,请保留默认值:_PARTITIONTIME
      • 点击 Require partition filter 框,要求用户添加 WHERE 子句以指定要查询的分区。需要分区过滤条件有可能减少费用并提高性能。 如需了解详情,请参阅查询分区表。如果 Partitioning type 设置为 None,则此选项不可用。
    • 如需聚簇该表,请在 Clustering fields 框中,输入一到四个字段名称。
    • Destination encryption 部分,选择 Customer-managed encryption 以使用 Cloud Key Management Service 密钥来加密表。如果保留 Default 设置,BigQuery 将使用 Google 管理的密钥加密存储中的数据(静态数据)
  7. 点击 Create Table

CLI

使用 bq load 命令和 --source_format 标志指定 AVRO,并添加 Cloud Storage URI。您可以添加单个 URI、以英文逗号分隔的 URI 列表或含有通配符的 URI。

(可选)添加 --location 标志并将值设置为您的位置

其他可选标志包括:

  • --max_bad_records:此标志表示一个整数,指定了作业中允许的最大错误记录数量,超过此数量之后,整个作业就会失败。默认值为 0。无论 --max_bad_records 值是多少,任意类型的错误最多返回 5 个。
  • --time_partitioning_type:此标志会在表上启用基于时间的分区,并设置分区类型。目前,唯一可以使用的值就是 DAY,使用此值时,每天生成一个分区。当您创建按 DATETIMESTAMP 列分区的表时,此标志为可选标志。
  • --time_partitioning_expiration:此标志表示一个整数,指定了应在何时删除基于时间的分区(以秒为单位)。过期时间以分区的世界协调时间 (UTC) 日期加上这个整数值为准。
  • --time_partitioning_field:此标志表示用于创建分区表DATETIMESTAMP 列。如果在未使用此值的情况下启用了基于时间的分区,系统会创建提取时间分区表
  • --require_partition_filter:启用后,此选项会要求用户添加一个 WHERE 子句以指定要查询的分区。需要分区过滤条件可以减少费用并提高性能。 如需了解详情,请参阅查询分区表
  • --clustering_fields:此标志表示用于创建聚簇表的包含最多四个列名称的英文逗号分隔列表。此标志只能与分区表一起使用。
  • --destination_kms_key:此标志表示用于加密表数据的 Cloud KMS 密钥。

    如需详细了解分区表,请参阅:

    如需详细了解聚簇表,请参阅:

    如需详细了解表加密,请参阅:

如需将 Avro 数据加载到 BigQuery,请输入以下命令:

bq --location=location load \
--source_format=format \
dataset.table \
path_to_source

其中:

  • location 是您的位置。--location 是可选标志。例如,如果您在东京区域使用 BigQuery,请将该标志的值设为 asia-northeast1。您可以使用 .bigqueryrc 文件设置该位置的默认值。
  • formatAVRO
  • dataset 是现有数据集。
  • table 是要向其中加载数据的表的名称。
  • path_to_source 是完全限定的 Cloud Storage URI 或以英文逗号分隔的 URI 列表。您还可以使用通配符

示例:

以下命令可将 gs://mybucket/mydata.avro 中的数据加载到 mydataset 中名为 mytable 的表中。

    bq load \
    --source_format=AVRO \
    mydataset.mytable \
    gs://mybucket/mydata.avro

以下命令可将 gs://mybucket/mydata.avro 中的数据加载到 mydataset 中名为 mytable 的提取时间分区表中。

    bq load \
    --source_format=AVRO \
    --time_partitioning_type=DAY \
    mydataset.mytable \
    gs://mybucket/mydata.avro

以下命令可将 gs://mybucket/mydata.avro 中的数据加载到 mydataset 中名为 mytable 的分区表中。该表按 mytimestamp 列进行分区。

    bq load \
    --source_format=AVRO \
    --time_partitioning_field mytimestamp \
    mydataset.mytable \
    gs://mybucket/mydata.avro

以下命令将 gs://mybucket/ 中多个文件的数据加载到 mydataset 中名为 mytable 的表中。Cloud Storage URI 使用通配符。

    bq load \
    --source_format=AVRO \
    mydataset.mytable \
    gs://mybucket/mydata*.avro

以下命令将 gs://mybucket/ 中多个文件的数据加载到 mydataset 中名为 mytable 的表中。该命令包含以英文逗号分隔的 Cloud Storage URI 列表(含通配符)。

    bq load \
    --source_format=AVRO \
    mydataset.mytable \
    "gs://mybucket/00/*.avro","gs://mybucket/01/*.avro"

API

  1. 创建指向 Cloud Storage 中源数据的 load 作业。

  2. (可选)在作业资源jobReference 部分的 location 属性中,指定您的位置

  3. source URIs 属性必须采用完全限定格式:gs://bucket/object。每个 URI 都可以包含一个“*”通配符

  4. sourceFormat 属性设置为 AVRO,以指定 Avro 数据格式。

  5. 如需检查作业状态,请调用 jobs.get(job_id*),其中 job_id 是初始请求返回的作业的 ID。

    • 如果 status.state = DONE,则表示作业已成功完成。
    • 如果存在 status.errorResult 属性,则请求失败,并且该对象将包含描述所出现的问题的相关信息。如果请求失败,则不创建任何表且不加载任何数据。
    • 如果未出现 status.errorResult,则表示作业已成功完成,但可能存在一些非严重错误,如导入一些行时出错。返回的作业对象的 status.errors 属性中列出了非严重错误。

API 说明:

  • 加载作业不可分割。也就是说,如果加载作业失败,则所有数据都不可用;如果加载作业成功,则所有数据全部可用。

  • 在调用 jobs.insert 来创建加载作业时,最佳做法是生成唯一 ID,并将其作为 jobReference.jobId 传递。此方法比较不会受到网络故障的影响,因为客户端可以对已知的作业 ID 进行轮询或重试。

  • 对指定的作业 ID 调用 jobs.insert 具有幂等性。您可以对同一作业 ID 进行无限次重试,但最多只会有一个成功操作。

Python

在尝试此示例之前,请先按照《BigQuery 快速入门:使用客户端库》中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档

# from google.cloud import bigquery
# client = bigquery.Client()
# dataset_id = 'my_dataset'

dataset_ref = client.dataset(dataset_id)
job_config = bigquery.LoadJobConfig()
job_config.source_format = bigquery.SourceFormat.AVRO
uri = "gs://cloud-samples-data/bigquery/us-states/us-states.avro"

load_job = client.load_table_from_uri(
    uri, dataset_ref.table("us_states"), job_config=job_config
)  # API request
print("Starting job {}".format(load_job.job_id))

load_job.result()  # Waits for table load to complete.
print("Job finished.")

destination_table = client.get_table(dataset_ref.table("us_states"))
print("Loaded {} rows.".format(destination_table.num_rows))

使用 Avro 数据覆盖或附加到表

您可以从源文件或通过附加查询结果将其他数据加载到表中。

在控制台或经典版 BigQuery 网页界面中,使用 Write preference 选项指定从源文件或查询结果加载数据时要执行的操作。

将其他数据加载到表中时,可选择以下选项:

控制台选项 经典版网页界面选项 CLI 标志 BigQuery API 属性 说明
只写入空白表 Write if empty WRITE_EMPTY 仅当表为空时才写入数据。
附加到表 Append to table --noreplace--replace=false;如果未指定 --[no]replace,则默认为附加 WRITE_APPEND (默认)在表末尾附加数据。
覆盖表 Overwrite table --replace--replace=true WRITE_TRUNCATE 清空表中所有现有数据然后再写入新数据。

如果将数据加载到现有表中,加载作业可以附加数据或覆盖表。

您可以通过以下方式附加或覆盖表:

  • 使用 GCP Console 或经典版网页界面
  • 使用 CLI 的 bq load 命令
  • 调用 jobs.insert API 方法并配置 load 作业
  • 使用客户端库

如需使用 Avro 数据附加或覆盖表,请执行以下操作:

控制台

  1. 在 GCP Console 中打开 BigQuery 网页界面。
    转到 GCP Console

  2. 在导航面板的资源部分中,展开您的项目并选择数据集。

  3. 在窗口右侧的详细信息面板中,点击创建表。在加载作业中附加和覆盖数据的过程与在加载作业中创建表的过程相同。

    创建表

  4. 创建表页面的来源部分,执行以下操作:

    • 基于以下来源创建表部分,选择 Cloud Storage。

    • 在来源字段中,浏览找到或输入 Cloud Storage URI。请注意,BigQuery 网页界面不支持添加多个 URI,但支持使用通配符。Cloud Storage 存储分区必须与您要向其中附加数据或覆盖其数据的表所属的数据集位于同一位置。

      选择文件

    • 对于文件格式,请选择 Avro

  5. 创建表页面的目标位置部分,执行以下操作:

    • 数据集名称部分,选择相应数据集。

      选择数据集

    • 表名称字段中,输入您要在 BigQuery 中附加或覆盖的表的名称。

    • 确认表类型设置为原生表

  6. 架构部分中,无需执行任何操作。架构在 Avro 文件中为自描述形式。

  7. 对于分区和聚簇设置,保留默认值。您无法通过附加或覆盖表将表转换为分区表或聚簇表,并且 GCP Console 不支持在加载作业中附加或覆盖分区表或聚簇表。

  8. 点击高级选项

    • 写入偏好设置部分,选择附加到表覆盖表
    • 允许的错误数部分,接受默认值 0 或输入包含可忽略的错误的最大行数。如果包含错误的行数超过此值,该作业将生成 invalid 消息并失败。
    • 未知值部分,取消选中忽略未知值。此选项仅适用于 CSV 和 JSON 文件。
    • 加密部分,点击客户管理的密钥以使用 Cloud Key Management Service 密钥。如果保留 Google 管理的密钥设置,BigQuery 将加密存储中的数据(静态数据)

      覆盖表

  9. 点击创建表

经典版界面

  1. 转到 BigQuery 网页界面。
    转到 BigQuery 网页界面

  2. 在导航面板中,将鼠标悬停在数据集上,点击向下箭头图标 向下箭头图标图片,然后点击 Create new table。在加载作业中附加和覆盖数据的过程与在加载作业中创建表的过程相同。

  3. Create Table 页面的 Source Data 部分,执行以下操作:

    • Location 部分,选择 Cloud Storage,然后在来源字段中输入 Cloud Storage URI。请注意,此界面不支持添加多个 URI,但支持使用通配符。Cloud Storage 存储分区必须与您要向其中附加数据或覆盖其数据的表所属的数据集位于同一位置。
    • 对于 File format,请选择 Avro
  4. Create Table 页面的 Destination Table 部分,执行以下操作:

    • Table name 部分,选择适当的数据集,然后在表名称字段中输入您要向其中附加数据或覆盖其数据的表的名称。
    • 确认 Table type 设置为 Native table
  5. Schema 部分中,无需执行任何操作。架构信息在 Avro 文件中为自描述形式。

  6. Options 部分,执行以下操作:

    • Number of errors allowed 部分,接受默认值 0 或输入包含可忽略的错误的最大行数。如果包含错误的行数超过此值,该作业将生成 invalid 消息并失败。
    • Write preference 部分,选择 Append to tableOverwrite table
    • 保留 Partitioning TypePartitioning FieldRequire partition filterClustering Fields 的默认值。您无法通过附加或覆盖表将表转换为分区表或聚簇表,并且网页界面不支持在加载作业中附加或覆盖分区表或聚簇表。
    • Destination encryption 部分,选择 Customer-managed encryption 以使用 Cloud Key Management Service 密钥来加密表。如果保留 Default 设置,BigQuery 将使用 Google 管理的密钥加密存储中的数据(静态数据)
  7. 点击 Create Table

CLI

输入带 --replace 标志的 bq load 命令以覆盖表。使用 --noreplace 标志可将数据附加到表。如果未指定标志,则系统会默认附加数据。提供 --source_format 标志并将其设置为 AVRO。由于系统会从自描述源数据中自动检索 Avro 架构,因此您无需提供架构定义。

(可选)添加 --location 标志并将值设置为您的位置

其他可选标志包括:

  • --max_bad_records:此标志表示一个整数,指定了作业中允许的最大错误记录数量,超过此数量之后,整个作业就会失败。默认值为 0。无论 --max_bad_records 值是多少,任意类型的错误最多返回 5 个。
  • --destination_kms_key:此标志表示用于加密表数据的 Cloud KMS 密钥。
bq --location=location load \
--[no]replace \
--source_format=format \
dataset.table \
path_to_source

其中:

  • location 是您的位置--location 是可选标志。您可以使用 .bigqueryrc 文件设置默认位置值。
  • formatAVRO
  • dataset 是现有数据集。
  • table 是要向其中加载数据的表的名称。
  • path_to_source 是完全限定的 Cloud Storage URI 或以英文逗号分隔的 URI 列表。您还可以使用通配符

示例:

以下命令可从 gs://mybucket/mydata.avro 加载数据并覆盖 mydataset 中名为 mytable 的表。

    bq load \
    --replace \
    --source_format=AVRO \
    mydataset.mytable \
    gs://mybucket/mydata.avro

以下命令可从 gs://mybucket/mydata.avro 加载数据,并将数据附加到 mydataset 中名为 mytable 的表。

    bq load \
    --noreplace \
    --source_format=AVRO \
    mydataset.mytable \
    gs://mybucket/mydata.avro

如需了解如何使用 CLI 附加和覆盖分区表,请参阅:对分区表数据执行附加和覆盖操作

API

  1. 创建指向 Cloud Storage 中源数据的 load 作业。

  2. (可选)在作业资源jobReference 部分的 location 属性中,指定您的位置

  3. source URIs 属性必须采用完全限定格式:gs://bucket/object。如需添加多个 URI,可采用英文逗号分隔列表的形式。请注意,系统也支持通配符

  4. configuration.load.sourceFormat 属性设置为 AVRO,以指定数据格式。

  5. configuration.load.writeDisposition 属性设置为 WRITE_TRUNCATEWRITE_APPEND 以指定写入偏好设置。

Python

在尝试此示例之前,请先按照《BigQuery 快速入门:使用客户端库》中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档

# from google.cloud import bigquery
# client = bigquery.Client()
# table_ref = client.dataset('my_dataset').table('existing_table')

job_config = bigquery.LoadJobConfig()
job_config.write_disposition = bigquery.WriteDisposition.WRITE_TRUNCATE
job_config.source_format = bigquery.SourceFormat.AVRO
uri = "gs://cloud-samples-data/bigquery/us-states/us-states.avro"
load_job = client.load_table_from_uri(
    uri, table_ref, job_config=job_config
)  # API request
print("Starting job {}".format(load_job.job_id))

load_job.result()  # Waits for table load to complete.
print("Job finished.")

destination_table = client.get_table(table_ref)
print("Loaded {} rows.".format(destination_table.num_rows))

Avro 转换

BigQuery 将 Avro 数据类型转化为以下 BigQuery 数据类型:

基本类型

Avro 数据类型 BigQuery 数据类型 备注
null BigQuery 会忽略这些值
boolean BOOLEAN
int INTEGER
long INTEGER
float FLOAT
double FLOAT
bytes BYTES
bytes(具有 decimal 逻辑类型 NUMERIC
string STRING 仅限 UTF-8

复合类型

Avro 数据类型 BigQuery 数据类型 备注
record RECORD
  • 忽略别名
  • 文档转换为字段描述
  • 默认值在读取时设置
  • 忽略顺序
  • 删除递归字段(仅保留递归字段的第一级嵌套)
enum STRING
  • 字符串是枚举的符号值
  • 忽略别名
  • 文档转换为字段描述
array 重复字段 不支持数组的数组。忽略仅包含 NULL 类型的数组。
map<T> RECORD BigQuery 将 Avro map<T> 字段转换为包含两个字段(键和值)的重复 RECORD。BigQuery 将键存储为 STRING,并将值转换为 BigQuery 中相应的数据类型。
union
  • 可以为 Null 的字段
  • 包含可以为 Null 的字段列表的 RECORD
  • 当 union 只有一个非 null 类型时,它会转换为可以为 Null 的字段。
  • 否则,它将转换为包含可以为 Null 的字段列表的 RECORD。读取时,系统只会设置其中一个字段。
fixed BYTES
  • 忽略别名
  • 忽略大小

逻辑类型

默认情况下,BigQuery 会忽略 logicalType 特性,并改为使用基础 Avro 类型。

Avro 逻辑类型 BigQuery 数据类型
date INTEGER
time-millis INTEGER
time-micros INTEGER(转化自 LONG)
timestamp-millis INTEGER(转化自 LONG)
timestamp-micros INTEGER(转化自 LONG)
duration BYTES(转化自大小为 12 的 fixed 类型)
decimal NUMERIC(请参阅 Decimal 逻辑类型

如需将 Avro 逻辑类型转换为其对应的 BigQuery 数据类型,请使用命令行工具将 --use_avro_logical_types 标志设置为 True;或者在调用 jobs.insert 方法创建加载作业时,在作业资源中设置 useAvroLogicalTypes 属性。

下表显示 Avro 逻辑类型到 BigQuery 数据类型的转换。

Avro 逻辑类型 转换的 BigQuery 数据类型
date DATE
time-millis TIME
time-micros TIME
timestamp-millis TIMESTAMP
timestamp-micros TIMESTAMP
duration BYTES(由大小为 12 的 fixed 类型转换而来)
decimal NUMERIC(请参阅 Decimal 逻辑类型

如需详细了解 Avro 数据类型,请参阅 Apache Avro™ 1.8.2 规范

decimal 逻辑类型

具有 decimal 逻辑类型的 Avro bytes 类型的 precision 最多为 38(总位数),scale 最多为 9 (小数点右侧的数字)。整数位数(即 precision 减去 scale)最多可以是 29。例如,支持 precision 为 38、scale 为 9 的 decimal,因为整数位数为 29。不支持 precision 为 38、scale 为 5 的 decimal,因为整数位数为 33。

在将 bytes 列中具有 decimal 逻辑类型的 Avro 文件加载到现有表中时,表的架构定义中列的数据类型可以是 BYTESNUMERIC。如果列的数据类型为 BYTES,则忽略 Avro 文件中列上的 decimal 逻辑类型。

如需详细了解 Avro decimal 逻辑类型,请参阅 Apache Avro™ 1.8.2 规范

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
需要帮助?请访问我们的支持页面