使用架构自动检测功能

架构自动检测功能

架构自动检测功能可让 BigQuery 推断出 CSV、JSON 或 Google 表格数据的架构。将数据加载到 BigQuery 以及查询外部数据源时，您可以使用架构自动检测功能。

启用自动检测功能后，BigQuery 会推断每一列的数据类型。BigQuery 会在数据源中随机选择一个文件，然后扫描多达前 500 行数据以用作代表性样本。然后，BigQuery 会检查每个字段，并尝试根据样本中的值向该字段分配数据类型。如果列中的所有行都为空，则自动检测功能会将列默认为 STRING 数据类型。

如果不为 CSV、JSON 或 Google 表格数据启用架构自动检测功能，则必须在创建表时手动提供架构。

您无需为 Avro、Parquet、ORC、Firestore 导出文件或 Datastore 导出文件启用架构自动检测功能。这些文件格式是自描述格式，因此 BigQuery 会自动根据源数据推断表架构。对于 Parquet、Avro 和 Orc 文件，您可以选择性地提供显式架构以替换推断的架构。

您可以通过下列方式查看检测到的表架构：

使用 Google Cloud 控制台。
使用 bq 命令行工具的 bq show 命令。

当 BigQuery 检测架构时，在极少数情况下可能会更改字段名称，使其与 GoogleSQL 语法兼容。

如需了解数据类型转换，请参阅以下内容：

数据类型转换（从 Datastore 加载数据时）
数据类型转换（从 Firestore 加载数据时）
Avro 转换
Parquet 转换
ORC 转换

在加载数据时使用架构自动检测功能

如需在加载数据时启用架构自动检测功能，请使用以下方法之一：

在 Google Cloud 控制台中，对于架构部分的自动检测，勾选架构和输入参数选项。
在 bq 命令行工具中，将 bq load 命令与 --autodetect 参数结合使用。

如果启用了架构自动检测功能，BigQuery 将尽力尝试自动推断出 CSV 和 JSON 文件的架构。自动检测逻辑通过读取最多前 500 行数据来推断架构字段类型。如果存在 --skip_leading_rows 标志，则会跳过前导行。字段类型以字段最多的行为基础。因此，只要至少一行数据在每一列/字段中都有值，自动检测功能就会按预期运行。

架构自动检测功能不适用于 Avro 文件、Parquet 文件、ORC 文件、Firestore 导出文件或 Datastore 导出文件。在您将这些文件加载到 BigQuery 中时，系统会自动从自描述源数据中检索表架构。

如需在加载 JSON 或 CSV 数据时使用架构自动检测功能，请执行如下操作：

控制台

在 Google Cloud 控制台中，转到 BigQuery 页面。

转到 BigQuery
在浏览器面板中，展开您的项目并选择数据集。
展开操作选项，然后点击打开。
在详情面板中，点击创建表 。
在创建表页面的来源部分，执行以下操作：
- 在基于以下数据创建表部分，选择所需的来源类型。
- 在来源字段中，浏览文件/Cloud Storage 存储桶，或输入 Cloud Storage URI。请注意，Google Cloud 控制台不支持添加多个 URI，但支持使用通配符。Cloud Storage 存储桶必须与您要创建的表所属的数据集位于同一位置。
- 在文件格式部分，选择 CSV 或 JSON。
在创建表页面的目标位置部分，执行以下操作：
- 在数据集名称部分，选择相应数据集。
- 在表名称字段中，输入您要创建的表的名称。
- 确认表类型是否设置为原生表。
点击创建表。

bq

发出带 --autodetect 参数的 bq load 命令。

（可选）提供 --location 标志并将其值设置为您的位置。

以下命令通过架构自动检测功能加载文件：

bq --location=LOCATION load \
--autodetect \
--source_format=FORMAT \
DATASET.TABLE \
PATH_TO_SOURCE

请替换以下内容：

LOCATION：您的位置名称。--location 是可选标志。例如，如果您在东京区域使用 BigQuery，请将该标志的值设置为 asia-northeast1。您可以使用 .bigqueryrc 文件设置位置的默认值。
FORMAT：NEWLINE_DELIMITED_JSON 或 CSV。
DATASET：要向其中加载数据的表所属的数据集。
TABLE：要向其中加载数据的表的名称。
PATH_TO_SOURCE：CSV 或 JSON 文件的位置。

示例：

输入以下命令可以将 myfile.csv 从本地机器加载到存储在 mydataset 数据集的 mytable 表中。

bq load --autodetect --source_format=CSV mydataset.mytable ./myfile.csv

输入以下命令可以将 myfile.json 从本地机器加载到存储在 mydataset 数据集的 mytable 表中。

bq load --autodetect --source_format=NEWLINE_DELIMITED_JSON \
mydataset.mytable ./myfile.json