从 Cloud Storage 加载 JSON 文件
从 Cloud Storage 加载以换行符分隔的 JSON 数据时,可以将数据加载到新的表或分区中,也可以将数据附加到现有的表或分区或覆盖现有的表或分区。当数据加载到 BigQuery 时,会被转化为适用于 Capacitor 的列式格式(BigQuery 的存储格式)。
如需将 Cloud Storage 中的数据加载到 BigQuery 表,则包含该表的数据集必须与相应 Cloud Storage 存储分区位于同一区域或多区域位置。
以换行符分隔的 JSON 格式与 JSON Lines 格式相同。
如需了解如何从本地文件加载 JSON 数据,请参阅从本地文件加载数据。
限制
将 Cloud Storage 中的 JSON 数据加载到 BigQuery 时,请注意以下事项:
- JSON 数据必须以换行符分隔。在文件中,每个 JSON 对象都必须单独列为一行。
- 如果使用 gzip 压缩,BigQuery 将无法并行读取数据。与加载未压缩的数据相比,将压缩的 JSON 数据加载到 BigQuery 的速度较为缓慢。
- 您无法在同一个加载作业中同时包含压缩文件和未压缩文件。
- gzip 文件的大小上限为 4 GB。
由于纯 JSON 字典中可能缺少架构信息,因此 BigQuery 不支持 JSON 中的映射或字典。例如,表示购物车
"products": {"my_product": 40.0, "product2" : 16.5}
中的商品列表无效,但"products": [{"product_name": "my_product", "amount": 40.0}, {"product_name": "product2", "amount": 16.5}]
有效。如果您需要保留整个 JSON 对象,则应将其放入
string
列中,使用 JSON 函数可查询该列。如果您使用 BigQuery API 将 [-253+1, 253-1] 范围以外的整数(在大多数情况下,表示大于 9007199254740991)加载到整数 (INT64) 列,则必须将其作为字符串传递,以避免数据损坏。此问题是由 JSON/ECMAScript 中的整数大小限制引起的。如需了解详情,请参阅 RFC 7159 的“数字”部分。
- 加载 CSV 或 JSON 数据时,
DATE
列的值必须使用英文短划线 (-
) 分隔符,并且日期必须采用以下格式:YYYY-MM-DD
(年-月-日)。 - 加载 JSON 或 CSV 数据时,
TIMESTAMP
列的值必须使用英文短划线 (-
) 分隔符来分隔时间戳的日期部分,并且日期必须采用以下格式:YYYY-MM-DD
(年-月-日)。时间戳的hh:mm:ss
(时-分-秒)部分必须使用英文冒号 (:
) 分隔符。
所需权限
在将数据加载到 BigQuery 时,您需要拥有相关权限,才能运行加载作业并将数据加载到新的或现有的 BigQuery 表和分区中。如果要从 Cloud Storage 加载数据,您还需要拥有对您的数据所在的存储分区的访问权限。
BigQuery 权限
至少需具备以下权限,才能将数据加载到 BigQuery。无论您是要将数据加载到新的表或分区,还是要附加到或覆盖现有的表或分区,都必须具备这些权限。
bigquery.tables.create
bigquery.tables.updateData
bigquery.jobs.create
以下预定义 IAM 角色同时具有 bigquery.tables.create
和 bigquery.tables.updateData
权限:
bigquery.dataEditor
bigquery.dataOwner
bigquery.admin
以下预定义的 IAM 角色包含 bigquery.jobs.create
权限:
bigquery.user
bigquery.jobUser
bigquery.admin
此外,如果用户具有 bigquery.datasets.create
权限,则当该用户创建数据集时,系统会为其授予该数据集的 bigquery.dataOwner
访问权限。借助 bigquery.dataOwner
访问权限,用户可以通过使用加载作业在数据集中创建和更新表。
如需详细了解 BigQuery 中的 IAM 角色和权限,请参阅访问权限控制。
Cloud Storage 权限
如需从 Cloud Storage 存储分区中加载数据,您必须获得 storage.objects.get
权限。如果要使用 URI 通配符,您还必须具有 storage.objects.list
权限。
授予预定义的 IAM 角色 storage.objectViewer
,即可同时提供 storage.objects.get
和 storage.objects.list
权限。
将 JSON 数据加载到新表
您可以使用以下方式之一将以换行符分隔的 JSON 数据从 Cloud Storage 加载到新的 BigQuery 表中:
- Cloud Console
bq
命令行工具的bq load
命令- 调用
jobs.insert
API 方法并配置load
作业 - 客户端库
如需将 JSON 数据从 Cloud Storage 加载到新的 BigQuery 表中,请执行以下操作:
控制台
在 Cloud Console 中打开 BigQuery 页面。
在探索器面板中,展开您的项目并选择数据集。
在详细信息面板中,点击创建表。
在创建表页面的来源部分,执行以下操作:
在基于以下数据创建表部分,选择 Cloud Storage。
在来源字段中,浏览至或输入 Cloud Storage URI。请注意,Cloud Console 不支持添加多个 URI,但支持使用通配符。Cloud Storage 存储分区必须与您要创建的表所属的数据集位于同一位置。
在文件格式部分,选择 JSON(以换行符分隔)。
在创建表页面的目标部分,执行以下操作:
在数据集名称部分,选择相应数据集。
确认表类型设置为原生表。
在表名称字段中,输入您要在 BigQuery 中创建的表的名称。
在架构部分的自动检测下,勾选架构和输入参数,以启用架构自动检测功能。或者,您可以通过以下方式手动输入架构定义:
启用以文本形式修改,并以 JSON 数组格式输入表架构。
使用添加字段手动输入架构。
(可选)如需对表进行分区,请在分区和聚簇设置中选择相应选项:
(可选)在分区过滤条件中,点击需要分区过滤条件框,以要求用户添加
WHERE
子句来指定要查询的分区。要求使用分区过滤条件可以减少费用并提高性能。如需了解详情,请参阅查询分区表。如果已选择不进行分区,则此选项不可用。(可选)如需对该表进行聚簇,请在聚簇顺序框中,输入一到四个字段名称。
(可选)点击高级选项。
- 在写入偏好设置部分,选中只写入空白表。此选项创建一个新表并向其中加载数据。
- 在允许的错误数部分中,接受默认值
0
或输入可忽略的含错行数上限。如果含错行数超过此值,该作业将生成invalid
消息并失败。 - 在未知值部分,勾选忽略未知值以忽略未出现在表架构中的行内的所有值。
- 在加密部分中,点击客户管理的密钥,以使用 Cloud Key Management Service 密钥。如果保留 Google 管理的密钥设置,BigQuery 将对静态数据进行加密。
点击创建表。
bq
使用 bq load
命令,通过 --source_format
标志指定 NEWLINE_DELIMITED_JSON
,并添加 Cloud Storage URI。您可以添加单个 URI、以英文逗号分隔的 URI 列表或含有通配符的 URI。在架构定义文件中以内嵌形式提供架构,或者使用架构自动检测功能。
(可选)提供 --location
标志并将其值设置为您的位置。
其他可选标志包括:
--max_bad_records
:此标志值为一个整数,指定了作业中允许的错误记录数上限,超过此数量之后,整个作业就会失败。默认值为0
。无论--max_bad_records
值设为多少,系统最多只会返回 5 个任意类型的错误。--ignore_unknown_values
:如果指定此标志,系统会允许并忽略 CSV 或 JSON 数据中无法识别的额外值。--autodetect
:如果指定此标志,系统会为 CSV 和 JSON 数据启用架构自动检测功能。--quote
:此标志表示用于括起记录的引号字符。默认值为"
。如需表示无引号字符,请使用空字符串。--time_partitioning_type
:此标志会在表上启用基于时间的分区,并设置分区类型。可能的值包括HOUR
、DAY
、MONTH
、YEAR
。当您创建按DATE
、DATETIME
或TIMESTAMP
列分区的表时,可选用此标志。基于时间的分区的默认分区类型为DAY
。--time_partitioning_expiration
:此标志值为一个整数,指定了应在何时删除基于时间的分区(以秒为单位)。过期时间以分区的世界协调时间 (UTC) 日期加上这个整数值为准。--time_partitioning_field
:此标志表示用于创建分区表的DATE
或TIMESTAMP
列。如果在未提供此值的情况下启用了基于时间的分区,系统会创建提取时间分区表。--require_partition_filter
:启用后,此选项会要求用户添加WHERE
子句来指定要查询的分区。要求使用分区过滤条件可以减少费用并提高性能。如需了解详情,请参阅查询分区表。--clustering_fields
:此标志表示以英文逗号分隔的列名称列表(最多包含 4 个列名称),用于创建聚簇表。--destination_kms_key
:用于加密表数据的 Cloud KMS 密钥。如需详细了解分区表,请参阅:
如需详细了解聚簇表,请参阅:
如需详细了解表加密,请参阅以下部分:
如需将 JSON 数据加载到 BigQuery,请输入以下命令:
bq --location=LOCATION load \ --source_format=FORMAT \ DATASET.TABLE \ PATH_TO_SOURCE \ SCHEMA
请替换以下内容:
LOCATION
:您所在的位置。--location
是可选标志。例如,如果您在东京区域使用 BigQuery,可将该标志的值设置为asia-northeast1
。您可以使用 .bigqueryrc 文件设置位置的默认值。FORMAT
:NEWLINE_DELIMITED_JSON
。DATASET
:现有数据集。TABLE
:要向其中加载数据的表的名称。PATH_TO_SOURCE
是完全限定的 Cloud Storage URI 或以英文逗号分隔的 URI 列表。系统也支持使用通配符。SCHEMA
:有效架构。该架构可以是本地 JSON 文件,也可以在命令中以内嵌形式输入架构。如果您使用架构文件,请勿为其提供扩展名。您还可以改用--autodetect
标志,而无需提供架构定义。
示例:
以下命令将 gs://mybucket/mydata.json
中的数据加载到 mydataset
中名为 mytable
的表中。架构是在名为 myschema
的本地架构文件中定义的。
bq load \
--source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable \
gs://mybucket/mydata.json \
./myschema
以下命令将 gs://mybucket/mydata.json
中的数据加载到 mydataset
中名为 mytable
的提取时间分区表中。架构是在名为 myschema
的本地架构文件中定义的。
bq load \
--source_format=NEWLINE_DELIMITED_JSON \
--time_partitioning_type=DAY \
mydataset.mytable \
gs://mybucket/mydata.json \
./myschema
以下命令将 gs://mybucket/mydata.json
中的数据加载到 mydataset
中名为 mytable
的分区表中。该表按 mytimestamp
列进行分区。架构是在名为 myschema
的本地架构文件中定义的。
bq load \
--source_format=NEWLINE_DELIMITED_JSON \
--time_partitioning_field mytimestamp \
mydataset.mytable \
gs://mybucket/mydata.json \
./myschema
以下命令将 gs://mybucket/mydata.json
中的数据加载到 mydataset
中名为 mytable
的表中。架构是自动检测的。
bq load \
--autodetect \
--source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable \
gs://mybucket/mydata.json
以下命令将 gs://mybucket/mydata.json
中的数据加载到 mydataset
中名为 mytable
的表中。架构以内嵌形式定义,格式为:FIELD:DATA_TYPE, FIELD:DATA_TYPE
。
bq load \
--source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable \
gs://mybucket/mydata.json \
qtr:STRING,sales:FLOAT,year:STRING
以下命令将 gs://mybucket/
中多个文件的数据加载到 mydataset
中名为 mytable
的表中。Cloud Storage URI 使用通配符。架构是自动检测的。
bq load \
--autodetect \
--source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable \
gs://mybucket/mydata*.json
以下命令将 gs://mybucket/
中多个文件的数据加载到 mydataset
中名为 mytable
的表中。该命令包含以英文逗号分隔的 Cloud Storage URI 列表(含通配符)。架构是在名为 myschema
的本地架构文件中定义的。
bq load \
--source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable \
"gs://mybucket/00/*.json","gs://mybucket/01/*.json" \
./myschema
API
创建指向 Cloud Storage 中源数据的
load
作业。source URIs
属性必须是完全限定的,格式为gs://BUCKET/OBJECT
。每个 URI 都可以包含一个“*”通配符。将
sourceFormat
属性设置为NEWLINE_DELIMITED_JSON
,以指定 JSON 数据格式。如需检查作业状态,请调用
jobs.get(JOB_ID*)
,并将JOB_ID
替换为初始请求返回的作业的 ID。- 如果
status.state = DONE
,则表示作业已成功完成。 - 如果出现
status.errorResult
属性,则表示请求失败,并且该对象将包含描述问题的相关信息。如果请求失败,则系统不会创建任何表,也不会加载任何数据。 - 如果未出现
status.errorResult
,则表示作业已成功完成,但可能存在一些非严重错误,如导入一些行时出错。非严重错误会列在返回的作业对象的status.errors
属性中。
- 如果
API 说明:
加载作业兼具原子性和一致性。也就是说,如果加载作业失败,则所有数据都不可用;如果加载作业成功,则所有数据全部可用。
通过调用
jobs.insert
来创建加载作业时,最佳做法是生成唯一 ID,并将其作为jobReference.jobId
传递。此方法受网络故障影响较小,因为客户端可以对已知的作业 ID 进行轮询或重试。对指定的作业 ID 调用
jobs.insert
遵循幂等原则。您可以根据需要对同一作业 ID 进行任意多次重试,但最多只会有一个成功操作。
C#
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 C# 设置说明进行操作。如需了解详情,请参阅 BigQuery C# API 参考文档。
使用BigQueryClient.CreateLoadJob()
方法,启动从 Cloud Storage 加载数据的作业。如需使用以换行符分隔的 JSON 文件,请创建一个 CreateLoadJobOptions
对象,并将其 SourceFormat
属性设置为 FileFormat.NewlineDelimitedJson
。
Go
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Go 设置说明进行操作。如需了解详情,请参阅 BigQuery Go API 参考文档。
Java
试用此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Java 设置说明进行操作。 如需了解详情,请参阅 BigQuery Java API 参考文档。
使用 LoadJobConfiguration.builder(tableId, sourceUri) 方法,启动从 Cloud Storage 加载数据的作业。如需使用以换行符分隔的 JSON 文件,请使用 LoadJobConfiguration.setFormatOptions(FormatOptions.json())。
Node.js
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Node.js 设置说明进行操作。如需了解详情,请参阅 BigQuery Node.js API 参考文档。
PHP
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 PHP 设置说明进行操作。如需了解详情,请参阅 BigQuery PHP API 参考文档。
Python
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
使用 Client.load_table_from_uri() 方法,启动从 Cloud Storage 加载数据的作业。如需使用以换行符分隔的 JSON 文件,请将 LoadJobConfig.source_format 属性设置为字符串NEWLINE_DELIMITED_JSON
,并将作业配置作为 job_config
参数传递给 load_table_from_uri()
方法。
Ruby
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Ruby 设置说明进行操作。如需了解详情,请参阅 BigQuery Ruby API 参考文档。
使用 Dataset.load_job() 方法,启动从 Cloud Storage 加载数据的作业。如需使用以换行符分隔的 JSON 文件,请将format
参数设置为 "json"
。
加载嵌套和重复的 JSON 数据
BigQuery 允许从支持基于对象的架构的各种源格式(如 JSON、Avro、ORC、Parquet、Firestore、Datastore 等)加载嵌套重复数据。
每行必须有一个 JSON 对象,其中包括任何嵌套/重复的字段。
以下显示了嵌套/重复数据的示例。此表包含有关人员的信息。其中包含以下字段:
id
first_name
last_name
dob
(出生日期)addresses
(嵌套和重复的字段)addresses.status
(目前或之前的状态)addresses.address
addresses.city
addresses.state
addresses.zip
addresses.numberOfYears
(在此地址居住的年数)
JSON 数据文件如下所示。请注意,地址字段包含值数组(以 [ ]
表示)。
{"id":"1","first_name":"John","last_name":"Doe","dob":"1968-01-22","addresses":[{"status":"current","address":"123 First Avenue","city":"Seattle","state":"WA","zip":"11111","numberOfYears":"1"},{"status":"previous","address":"456 Main Street","city":"Portland","state":"OR","zip":"22222","numberOfYears":"5"}]} {"id":"2","first_name":"Jane","last_name":"Doe","dob":"1980-10-16","addresses":[{"status":"current","address":"789 Any Avenue","city":"New York","state":"NY","zip":"33333","numberOfYears":"2"},{"status":"previous","address":"321 Main Street","city":"Hoboken","state":"NJ","zip":"44444","numberOfYears":"3"}]}
此表的架构如下所示:
[ { "name": "id", "type": "STRING", "mode": "NULLABLE" }, { "name": "first_name", "type": "STRING", "mode": "NULLABLE" }, { "name": "last_name", "type": "STRING", "mode": "NULLABLE" }, { "name": "dob", "type": "DATE", "mode": "NULLABLE" }, { "name": "addresses", "type": "RECORD", "mode": "REPEATED", "fields": [ { "name": "status", "type": "STRING", "mode": "NULLABLE" }, { "name": "address", "type": "STRING", "mode": "NULLABLE" }, { "name": "city", "type": "STRING", "mode": "NULLABLE" }, { "name": "state", "type": "STRING", "mode": "NULLABLE" }, { "name": "zip", "type": "STRING", "mode": "NULLABLE" }, { "name": "numberOfYears", "type": "STRING", "mode": "NULLABLE" } ] } ]
如需了解如何指定嵌套和重复的架构,请参阅指定嵌套和重复的字段。
使用 JSON 数据覆盖或附加到表
您可以通过添加来自源文件的数据或附加查询结果,将其他数据加载到表中。
在 Cloud Console 中,使用写入偏好设置选项指定从源文件或查询结果加载数据时要执行的操作。
将其他数据加载到表中时,可选择以下选项:
控制台选项 | bq 工具标志 |
BigQuery API 属性 | 说明 |
---|---|---|---|
只写入空白表 | 无 | WRITE_EMPTY |
仅当表为空时才写入数据。 |
附加到表 | --noreplace 或 --replace=false ;如果未指定 --[no]replace ,则默认为附加 |
WRITE_APPEND |
(默认)在表末尾附加数据。 |
覆盖表 | --replace 或 --replace=true |
WRITE_TRUNCATE |
清空表中所有现有数据然后再写入新数据。 此操作还会删除表架构,并移除所有 Cloud KMS 密钥。 |
如果将数据加载到现有表中,加载作业可以附加数据或覆盖表。
您可以使用以下方式之一对表执行附加或覆盖操作:
- Cloud Console
bq
命令行工具的bq load
命令- 调用
jobs.insert
API 方法并配置load
作业 - 客户端库
控制台
在 Cloud Console 中打开 BigQuery 页面。
在探索器面板中,展开您的项目并选择数据集。
在详细信息面板中,点击创建表。
在创建表页面的来源部分,执行以下操作:
在基于以下数据创建表部分,选择 Cloud Storage。
在来源字段中,浏览至或输入 Cloud Storage URI。请注意,Cloud Console 不支持添加多个 URI,但支持使用通配符。Cloud Storage 存储分区必须与您要向其中附加数据或覆盖其数据的表所属的数据集位于同一位置。
在文件格式部分,选择 JSON(以换行符分隔)。
在创建表页面的目标部分,执行以下操作:
在数据集名称部分,选择相应数据集。
在表名称字段中,输入您要在 BigQuery 中对其执行附加或覆盖操作的表的名称。
确认表类型设置为原生表。
在架构部分的自动检测下,勾选架构和输入参数,以启用架构自动检测功能。或者,您可以通过以下方式手动输入架构定义:
启用以文本形式修改,并以 JSON 数组格式输入表架构。
使用添加字段手动输入架构。
对于分区和聚簇设置,保留默认值。您无法通过对表执行附加或覆盖操作将表转换为分区表或聚簇表,并且 Cloud Console 不支持在加载作业中对分区表或聚簇表执行附加或覆盖操作。
点击高级选项。
- 在写入偏好设置部分,选择附加到表或覆盖表。
- 在允许的错误数部分中,接受默认值
0
或输入可忽略的含错行数上限。如果含错行数超过此值,该作业将生成invalid
消息并失败。 - 在未知值部分,勾选忽略未知值以忽略未出现在表架构中的行内的所有值。
在加密部分中,点击客户管理的密钥,以使用 Cloud Key Management Service 密钥。如果保留 Google 管理的密钥设置,BigQuery 将对静态数据进行加密。
点击创建表。
bq
使用 bq load
命令,通过 --source_format
标志指定 NEWLINE_DELIMITED_JSON
,并添加 Cloud Storage URI。您可以添加单个 URI、以英文逗号分隔的 URI 列表或含有通配符的 URI。
在架构定义文件中以内嵌形式提供架构,或者使用架构自动检测功能。
指定 --replace
标志可以覆盖表。使用 --noreplace
标志可向表附加数据。如果未指定标志,则默认附加数据。
可以在附加或覆盖表时修改表的架构。如需详细了解加载操作期间支持的架构更改,请参阅修改表架构。
(可选)提供 --location
标志并将其值设置为您的位置。
其他可选标志包括:
--max_bad_records
:此标志值为一个整数,指定了作业中允许的错误记录数上限,超过此数量之后,整个作业就会失败。默认值为0
。无论--max_bad_records
值设为多少,系统最多只会返回 5 个任意类型的错误。--ignore_unknown_values
:如果指定此标志,系统会允许并忽略 CSV 或 JSON 数据中无法识别的额外值。--autodetect
:如果指定此标志,系统会为 CSV 和 JSON 数据启用架构自动检测功能。--destination_kms_key
:此标志表示用于加密表数据的 Cloud KMS 密钥。
bq --location=LOCATION load \ --[no]replace \ --source_format=FORMAT \ DATASET.TABLE \ PATH_TO_SOURCE \ SCHEMA
请替换以下内容:
LOCATION
:您所在的位置。--location
是可选标志。您可以使用 .bigqueryrc 文件设置位置的默认值。FORMAT
:NEWLINE_DELIMITED_JSON
。DATASET
:现有数据集。TABLE
:要向其中加载数据的表的名称。PATH_TO_SOURCE
是完全限定的 Cloud Storage URI 或以英文逗号分隔的 URI 列表。系统也支持使用通配符。SCHEMA
:有效架构。该架构可以是本地 JSON 文件,也可以在命令中以内嵌形式输入架构。您还可以改用--autodetect
标志,而无需提供架构定义。
示例:
以下命令可从 gs://mybucket/mydata.json
加载数据并覆盖 mydataset
数据集中名为 mytable
的表。架构是使用架构自动检测功能定义的。
bq load \
--autodetect \
--replace \
--source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable \
gs://mybucket/mydata.json
以下命令可从 gs://mybucket/mydata.json
加载数据,并将数据附加到 mydataset
数据集中名为 mytable
的表。架构是使用 JSON 架构文件 myschema
定义的。
bq load \
--noreplace \
--source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable \
gs://mybucket/mydata.json \
./myschema
API
创建指向 Cloud Storage 中源数据的
load
作业。source URIs
属性必须是完全限定的,格式为gs://BUCKET/OBJECT
。您可以采用英文逗号分隔列表的形式添加多个 URI。请注意,系统也支持通配符。将
configuration.load.sourceFormat
属性设置为NEWLINE_DELIMITED_JSON
,以指定数据格式。将
configuration.load.writeDisposition
属性设置为WRITE_TRUNCATE
或WRITE_APPEND
,以指定写入偏好设置。
Go
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Go 设置说明进行操作。如需了解详情,请参阅 BigQuery Go API 参考文档。
Java
Node.js
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Node.js 设置说明进行操作。如需了解详情,请参阅 BigQuery Node.js API 参考文档。
PHP
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 PHP 设置说明进行操作。如需了解详情,请参阅 BigQuery PHP API 参考文档。
Python
如需替换现有表中的行,请将 LoadJobConfig.write_disposition 属性设置为字符串 WRITE_TRUNCATE
。
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Python 设置说明进行操作。如需了解详情,请参阅 BigQuery Python API 参考文档。
Ruby
如需替换现有表中的行,请将 Table.load_job() 中的 write
参数设置为 "WRITE_TRUNCATE"
。
在尝试此示例之前,请按照《BigQuery 快速入门:使用客户端库》中的 Ruby 设置说明进行操作。如需了解详情,请参阅 BigQuery Ruby API 参考文档。
加载 hive 分区 JSON 数据
BigQuery 支持加载存储在 Cloud Storage 中的 Hive 分区 JSON 数据,并将 Hive 分区列作为目标 BigQuery 代管表中的列进行填充。如需了解详情,请参阅加载外部分区数据。
加载 JSON 数据的详细信息
本部分介绍 BigQuery 如何在加载 JSON 数据时解析各种数据类型。
Boolean。BigQuery 可以解析以下任意布尔数据对:1 或 0、true 或 false、t 或 f、yes 或 no、y 或 n(均不区分大小写)。架构自动检测功能将自动检测上述除 0 和 1 之外的所有值。
Date。类型为 DATE 的列必须采用 YYYY-MM-DD
格式。
Datetime。类型为 DATETIME 的列必须采用 YYYY-MM-DD
HH:MM:SS[.SSSSSS]
格式。
Time。类型为 TIME 的列必须采用 HH:MM:SS[.SSSSSS]
格式。
Timestamp。BigQuery 接受各种时间戳格式。时间戳必须包含日期部分和时间部分。
日期部分的格式可以是
YYYY-MM-DD
,也可以是YYYY/MM/DD
。时间戳部分必须采用
HH:MM[:SS[.SSSSSS]]
格式(秒和毫秒是可选的)。日期和时间必须用空格或“T”分隔。
(可选)日期和时间可后跟世界协调时间 (UTC) 偏移量或世界协调时间 (UTC) 可用区指示符 (
Z
)。如需了解详情,请参阅时区。
例如,以下所有值都是有效的时间戳值:
- 2018-08-19 12:11
- 2018-08-19 12:11:35
- 2018-08-19 12:11:35.22
- 2018/08/19 12:11
- 2018-07-05 12:54:00 UTC
- 2018-08-19 07:11:35.220 -05:00
- 2018-08-19T12:11:35.220Z
如果您提供一个架构,BigQuery 可将 Unix Epoch 时间作为时间戳值。但是,架构自动检测功能不会检测这种情况,而是将值视为数值或字符串类型。
Unix Epoch 时间戳值示例:
- 1534680695
- 1.534680695e11
JSON 选项
如需更改 BigQuery 解析 JSON 数据的方式,请在 Cloud Console、bq
命令行工具、API 或客户端库中指定其他选项。
JSON 选项 | 控制台选项 | bq 工具标志 |
BigQuery API 属性 | 说明 |
---|---|---|---|---|
允许的错误记录数 | 允许的错误数 | --max_bad_records |
maxBadRecords |
(可选)BigQuery 在运行作业时可忽略的错误记录数上限。如果错误记录数超过该值,作业结果中将返回无效错误。默认值为“0”,表示所有记录都必须有效。 |
未知值 | 忽略未知值 | --ignore_unknown_values |
ignoreUnknownValues |
(可选)表示 BigQuery 是否应允许表架构中不存在的额外值。如果值为 true,将忽略额外值。如果值为 false,则含有额外列的记录将被视为错误记录;如果错误记录太多,作业结果中将返回一个无效记录错误。默认值为 false。“sourceFormat”属性决定了 BigQuery 将哪些项视为额外值:CSV:末尾列;JSON:与所有列名称均不匹配的指定值。 |