從本機資料來源載入資料

本頁面說明如何從本機資料來源載入資料。

如需從本機資料來源載入資料的教學課程,請參閱:

總覽

您可以透過以下方式,從可讀取的資料來源 (例如本機電腦) 載入資料:

  • 使用 Cloud Console 或 BigQuery 傳統網頁版 UI
  • 使用 CLI 的 bq load 指令
  • 使用 API
  • 使用用戶端程式庫

在您使用 Cloud Console、BigQuery 傳統網頁版 UI 或 CLI 來載入資料時,系統會自動建立載入工作。

限制

當您從本機資料來源載入資料時,會受到以下限制:

  • 當您從本機資料來源載入檔案時,無法使用萬用字元和以逗號分隔的清單。檔案必須個別載入。
  • 當您使用 BigQuery 傳統網頁版 UI 時,只能從本機資料來源載入 10 MB 以下的檔案,且檔案中的資料不得超過 16,000 列。

所需權限

您至少必須擁有下列權限,才能將資料載入 BigQuery:

  • bigquery.tables.create:用來建立新的資料表
  • bigquery.tables.updateData:如果您要覆寫或附加資料表,就需要這個權限
  • bigquery.jobs.create:可用來執行載入工作

以下是同時擁有 bigquery.tables.createbigquery.tables.updateData 權限的預先定義 Cloud IAM 角色:

  • bigquery.dataEditor
  • bigquery.dataOwner
  • bigquery.admin

以下是擁有 bigquery.jobs.create 權限的預先定義 Cloud IAM 角色:

  • bigquery.user
  • bigquery.jobUser
  • bigquery.admin

此外,當擁有 bigquery.datasets.create 權限的使用者建立資料集時,會獲得該資料集的 bigquery.dataOwner 權限。bigquery.dataOwner 權限能讓使用者將資料載入資料集內的資料表。

如要進一步瞭解 BigQuery 中的 Cloud IAM 角色和權限,請參閱存取權控管

從本機資料來源載入資料

如何從本機資料來源載入資料:

主控台

  1. 在 Cloud Console 中開啟 BigQuery 網頁版 UI。
    前往 Cloud Console

  2. 在導覽面板的「Resources」(資源) 區段中展開您的專案,然後選取某個資料集。

  3. 在視窗右側的詳細資料面板中,按一下 [Create table] (建立資料表)。載入資料的程序,與建立空白資料表的程序相同。

    建立資料表

  4. 在「Create table」(建立資料表) 頁面的「Source」(來源) 區段中:

    • 針對「Create table from」(使用下列資料建立資料表),選取 [Upload] (上傳)。

      上傳資料表

    • 在「Select file」(選取檔案) 下方,按一下 [Browse] (瀏覽)。

      瀏覽檔案

    • 瀏覽至檔案,然後按一下 [Open] (開啟)。請注意,本機檔案不支援萬用字元和以半形逗號分隔的清單。

    • 針對「File format」(檔案格式),選取 [CSV]、[JSON (newline delimited)] (JSON (以換行符號分隔))、[Avro]、[Parquet] 或 [ORC]。

  5. 在「Create table」(建立資料表) 頁面的「Destination」(目的地) 區段中:

    • 針對「Dataset name」(資料集名稱),選擇適當的資料集。

      查看資料集

    • 在「Table name」(資料表名稱) 欄位中,輸入您要在 BigQuery 中建立資料表時使用的名稱。

    • 確認「Table type」(資料表類型) 已設為「Native table」(原生資料表)。

  6. 在「Schema」(結構定義) 區段中,輸入結構定義

    • 如為 CSV 及 JSON 檔案,您可以勾選 [Auto-detect] (自動偵測) 選項,以啟用結構定義自動偵測功能。您可以在其他支援檔案類型的來源資料中找到結構定義資訊。

    • 您也可以使用下列其中一種方式,手動輸入結構定義資訊:

      • 按一下 [Edit as text] (以文字形式編輯),然後以 JSON 陣列的形式輸入資料表結構定義:

      • 使用 [Add Field] (新增欄位) 手動輸入結構定義。

  7. 在「Advanced options」(進階選項) 區段中選取適用的項目,然後按一下 [Create table] (建立資料表)。如要瞭解可用的選項,請參閱 CSV 選項JSON 選項

傳統版 UI

  1. 前往 BigQuery 網頁版 UI。
    前往 BigQuery 網頁版 UI

  2. 將游標懸停在導覽面板中的某個資料集上,然後按一下向下箭頭圖示 向下箭號圖示的圖片,再按一下 [Create new table] (建立新資料表)。載入資料的程序,與建立空白資料表的程序相同。

  3. 在「Create Table」(建立資料表) 頁面的「Source Data」(來源資料) 區段中:

    • 針對「Location」(位置),選取 [File upload] (檔案上傳),然後按一下 [Choose file] (選擇檔案) 並瀏覽到某個檔案,再按一下 [Open] (開啟)。請注意,本機檔案不支援萬用字元和以半形逗號分隔的清單。
    • 針對「File format」(檔案格式),選取 [(CSV)]、[JSON (newline delimited)] (JSON (以換行符號分隔))、[Avro]、[Parquet] 或 [ORC]。
  4. 在 [Create Table] (建立資料表) 頁面的 [Destination Table] (目的地資料表) 區段中:

    • 針對「Table name」(資料表名稱),選擇適當的資料集,並在「Table name」(資料表名稱) 欄位中,輸入您要在 BigQuery 中建立資料表時使用的名稱。
    • 確認「Table type」(資料表類型) 已設為「Native table」(原生資料表)。
  5. 在「Schema」(結構定義) 區段中,輸入結構定義

    • 如為 CSV 及 JSON 檔案,您可以勾選 [Auto-detect] (自動偵測) 選項,以啟用結構定義自動偵測功能。您可以在其他支援檔案類型的來源資料中找到結構定義資訊。

      自動偵測連結

    • 您也可以使用下列其中一種方式,手動輸入結構定義資訊:

      • 按一下 [Edit as text] (以文字形式編輯),然後以 JSON 陣列的形式輸入資料表結構定義:

        以 JSON 陣列的形式新增結構定義

      • 使用 [Add Field] (新增欄位) 手動輸入結構定義:

        使用新增欄位功能以新增結構定義

  6. 在「Options」(選項) 區段中選取適用的項目,然後按一下 [Create Table] (建立資料表)。如要瞭解可用的選項,請參閱 CSV 選項JSON 選項

CLI

請使用 bq load 指令來指定 source_format,然後將路徑加入本機檔案中。

(選用) 請提供 --location 旗標,並將該值設定為您的位置

如果您要在非預設專案中載入資料,請採用下列格式將專案 ID 新增至資料集:project_id:dataset

bq --location=location load \
--source_format=format \
project_id:dataset.table \
path_to_source \
schema

其中:

  • location 是您的位置。--location 旗標是可省略的。舉例來說,如果您在東京地區使用 BigQuery,請將該旗標的值設定為 asia-northeast1。您可以使用 .bigqueryrc 檔案,設定位置的預設值。
  • formatCSVAVROPARQUETORCNEWLINE_DELIMITED_JSON
  • project_id 是您的專案 ID。
  • 「dataset」是現有資料集。
  • 「table」是您要載入資料的目標資料表名稱。
  • 「path_to_source」是本機檔案的路徑。
  • 「schema」是有效的結構定義。結構定義可以是本機 JSON 檔案,或是自己輸入成指令的一部分。您也可以改用 --autodetect 旗標,而非提供結構定義。

此外,您還可以針對選項新增旗標,讓您能夠控制 BigQuery 剖析資料的方式。舉例來說,您可以使用 --skip_leading_rows 旗標,忽略 CSV 檔案中的標題列。詳情請參閱 CSV 選項JSON 選項

範例:

下列指令會將本機電腦中以換行符號分隔的 JSON 檔案 (mydata.json),載入預設專案的 mydataset 中名為 mytable 的資料表。而結構定義是透過名為 myschema.json 的本機結構定義檔案定義的。

    bq load \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.json \
    ./myschema.json

下列指令會將本機電腦中的 CSV 檔案 (mydata.csv),載入 myotherprojectmydataset 中名為 mytable 的資料表。而結構定義是採用下列格式,直接在指令中定義的:field:data_type, field:data_type

    bq load \
    --source_format=CSV \
    myotherproject:mydataset.mytable \
    ./mydata.csv \
    qtr:STRING,sales:FLOAT,year:STRING

下列指令會將本機電腦中的 CSV 檔案 (mydata.csv),載入預設專案的 mydataset 中名為 mytable 的資料表。而結構定義是利用結構定義自動偵測功能定義的。

    bq load \
    --autodetect \
    --source_format=CSV \
    mydataset.mytable \
    ./mydata.csv

C#

請在嘗試這個範例之前,先依照 BigQuery 快速入門導覽課程:使用用戶端程式庫中的 C# 設定操作說明來進行。詳情請參閱 BigQuery C# API 參考資料說明文件

下列程式碼示範,如何將本機 CSV 檔案載入到新的 BigQuery 資料表。如要載入另一種格式的本機檔案,請使用 JobCreationOptions (而非 UploadCsvOptions) 基本類別中,適合該格式的更新選項類別。


using Google.Cloud.BigQuery.V2;
using System;
using System.IO;

public class BigQueryLoadFromFile
{
    public void LoadFromFile(
        string projectId = "your-project-id",
        string datasetId = "your_dataset_id",
        string tableId = "your_table_id",
        string filePath = "path/to/file.csv"
    )
    {
        BigQueryClient client = BigQueryClient.Create(projectId);
        // Create job configuration
        var uploadCsvOptions = new UploadCsvOptions()
        {
            SkipLeadingRows = 1,  // Skips the file headers
            Autodetect = true
        };
        using (FileStream stream = File.Open(filePath, FileMode.Open))
        {
            // Create and run job
            // Note that there are methods available for formats other than CSV
            BigQueryJob job = client.UploadCsv(
                datasetId, tableId, null, stream, uploadCsvOptions);
            job.PollUntilCompleted();  // Waits for the job to complete.
            // Display the number of rows uploaded
            BigQueryTable table = client.GetTable(datasetId, tableId);
            Console.WriteLine(
                $"Loaded {table.Resource.NumRows} rows to {table.FullyQualifiedId}");
        }
    }
}

Go

請在嘗試這個範例之前,先依照 BigQuery 快速入門導覽課程:使用用戶端程式庫中的 Go 設定操作說明來進行。詳情請參閱 BigQuery Go API 參考資料說明文件

下列程式碼示範,如何將本機 CSV 檔案載入到新的 BigQuery 資料表。如要載入另一種格式的本機檔案,請將 NewReaderSourceDataFormat 屬性設定成適當的格式。

// To run this sample, you will need to create (or reuse) a context and
// an instance of the bigquery client.  For example:
// import "cloud.google.com/go/bigquery"
// ctx := context.Background()
// client, err := bigquery.NewClient(ctx, "your-project-id")
f, err := os.Open(filename)
if err != nil {
	return err
}
source := bigquery.NewReaderSource(f)
source.AutoDetect = true   // Allow BigQuery to determine schema.
source.SkipLeadingRows = 1 // CSV has a single header line.

loader := client.Dataset(datasetID).Table(tableID).LoaderFrom(source)

job, err := loader.Run(ctx)
if err != nil {
	return err
}
status, err := job.Wait(ctx)
if err != nil {
	return err
}
if err := status.Err(); err != nil {
	return err
}

Java

請在嘗試這個範例之前,先依照 BigQuery 快速入門導覽課程:使用用戶端程式庫中的 Java 設定操作說明來進行。詳情請參閱 BigQuery Java API 參考資料說明文件

下列程式碼示範,如何將本機 CSV 檔案載入到新的 BigQuery 資料表。如要載入另一種格式的本機檔案,請將 FormatOptions 設定成適當的格式。

TableId tableId = TableId.of(datasetName, tableName);
WriteChannelConfiguration writeChannelConfiguration =
    WriteChannelConfiguration.newBuilder(tableId).setFormatOptions(FormatOptions.csv()).build();
// The location must be specified; other fields can be auto-detected.
JobId jobId = JobId.newBuilder().setLocation(location).build();
TableDataWriteChannel writer = bigquery.writer(jobId, writeChannelConfiguration);
// Write data to writer
try (OutputStream stream = Channels.newOutputStream(writer)) {
  Files.copy(csvPath, stream);
}
// Get load job
Job job = writer.getJob();
job = job.waitFor();
LoadStatistics stats = job.getStatistics();
return stats.getOutputRows();

Node.js

請在嘗試這個範例之前,先依照 BigQuery 快速入門導覽課程:使用用戶端程式庫中的 Node.js 設定操作說明來進行。詳情請參閱 BigQuery Node.js API 參考資料說明文件

下列程式碼示範,如何將本機 CSV 檔案載入到新的 BigQuery 資料表。如要載入另一種格式的本機檔案,請將 load 函式的 metadata 參數設定成適當的格式。

// Imports the Google Cloud client library
const {BigQuery} = require('@google-cloud/bigquery');
const bigquery = new BigQuery();

async function loadLocalFile() {
  // Imports a local file into a table.

  /**
   * TODO(developer): Uncomment the following lines before running the sample.
   */
  // const filename = '/path/to/file.csv';
  // const datasetId = 'my_dataset';
  // const tableId = 'my_table';

  // Load data from a local file into the table
  const [job] = await bigquery
    .dataset(datasetId)
    .table(tableId)
    .load(filename);

  console.log(`Job ${job.id} completed.`);

  // Check the job's status for errors
  const errors = job.status.errors;
  if (errors && errors.length > 0) {
    throw errors;
  }
}

PHP

請在嘗試這個範例之前,先依照 BigQuery 快速入門導覽課程:使用用戶端程式庫中的 PHP 設定操作說明來進行。詳情請參閱 BigQuery PHP API 參考資料說明文件

下列程式碼示範,如何將本機 CSV 檔案載入到新的 BigQuery 資料表。如要載入另一種格式的本機檔案,請將 sourceFormat 設定成適當的格式。

use Google\Cloud\BigQuery\BigQueryClient;
use Google\Cloud\Core\ExponentialBackoff;

/** Uncomment and populate these variables in your code */
// $projectId  = 'The Google project ID';
// $datasetId  = 'The BigQuery dataset ID';
// $tableId    = 'The BigQuery table ID';
// $source     = 'The path to the CSV source file to import';

// instantiate the bigquery table service
$bigQuery = new BigQueryClient([
    'projectId' => $projectId,
]);
$dataset = $bigQuery->dataset($datasetId);
$table = $dataset->table($tableId);
// create the import job
$loadConfig = $table->load(fopen($source, 'r'))->sourceFormat('CSV');

$job = $table->runJob($loadConfig);
// poll the job until it is complete
$backoff = new ExponentialBackoff(10);
$backoff->execute(function () use ($job) {
    printf('Waiting for job to complete' . PHP_EOL);
    $job->reload();
    if (!$job->isComplete()) {
        throw new Exception('Job has not yet completed', 500);
    }
});
// check if the job has errors
if (isset($job->info()['status']['errorResult'])) {
    $error = $job->info()['status']['errorResult']['message'];
    printf('Error running job: %s' . PHP_EOL, $error);
} else {
    print('Data imported successfully' . PHP_EOL);
}

Python

請在嘗試這個範例之前,先依照 BigQuery 快速入門導覽課程:使用用戶端程式庫中的 Python 設定操作說明來進行。詳情請參閱 BigQuery Python API 參考資料說明文件

下列程式碼示範,如何將本機 CSV 檔案載入到新的 BigQuery 資料表。如要載入另一種格式的本機檔案,請將 LoadJobConfig.source_format 屬性設定成適當的格式。

# from google.cloud import bigquery
# client = bigquery.Client()
# filename = '/path/to/file.csv'
# dataset_id = 'my_dataset'
# table_id = 'my_table'

dataset_ref = client.dataset(dataset_id)
table_ref = dataset_ref.table(table_id)
job_config = bigquery.LoadJobConfig()
job_config.source_format = bigquery.SourceFormat.CSV
job_config.skip_leading_rows = 1
job_config.autodetect = True

with open(filename, "rb") as source_file:
    job = client.load_table_from_file(source_file, table_ref, job_config=job_config)

job.result()  # Waits for table load to complete.

print("Loaded {} rows into {}:{}.".format(job.output_rows, dataset_id, table_id))

Ruby

請在嘗試這個範例之前,先依照 BigQuery 快速入門導覽課程:使用用戶端程式庫中的 Ruby 設定操作說明來進行。詳情請參閱 BigQuery Ruby API 參考資料說明文件

下列程式碼示範,如何將本機 CSV 檔案載入到新的 BigQuery 資料表。如要載入另一種格式的本機檔案,請將 Table#load_job 方法的 format 參數設定成適當的格式。

require "google/cloud/bigquery"

def load_from_file(dataset_id = "your_dataset_id",
                   file_path  = "path/to/file.csv")

  bigquery = Google::Cloud::Bigquery.new
  dataset  = bigquery.dataset dataset_id
  table_id = "new_table_id"

  # Infer the config.location based on the location of the referenced dataset.
  load_job = dataset.load_job table_id, file_path do |config|
    config.skip_leading = 1
    config.autodetect   = true
  end
  load_job.wait_until_done! # Waits for table load to complete.

  table = dataset.table table_id
  puts "Loaded #{table.rows_count} rows into #{table.id}"
end

使用本機檔案將資料附加到資料表,或是覆寫資料表

如果要在資料表中載入額外資料,您可以指定來源檔案或附加查詢結果。如果資料的結構定義與目標資料表或分區的結構定義不符,您可以在附加或覆寫時更新目標資料表或分區的結構定義。

如果您在附加資料時更新結構定義,BigQuery 可讓您:

  • 新增欄位
  • REQUIRED 欄位放寬為 NULLABLE

如果您是要覆寫資料表,系統一定會覆寫結構定義。覆寫表格時,結構定義更新不受限制。

在主控台或傳統版 BigQuery 網頁版 UI 中,使用 [Write preference] (寫入偏好設定) 選項來指定從來源檔案或從查詢結果載入資料時採取的動作。CLI 與 API 提供下列選項:

主控台選項 傳統版 UI 選項 CLI 標記 BigQuery API 屬性 說明
空白時寫入 空白時寫入 WRITE_EMPTY 系統只會在資料表空白時寫入資料。
附加到資料表中 附加到資料表中 --noreplace--replace=false。如果您沒有指定 --replace,預設值就是附加 WRITE_APPEND (預設值) 將資料附加至資料表尾端。
覆寫資料表 覆寫資料表 --replace--replace=true WRITE_TRUNCATE 系統會先清除資料表中所有現有的資料,再寫入新的資料。

如何載入本機檔案中的 CSV、JSON、Avro、Parquet 或 ORC 資料,然後將資料附加到 (或覆寫) BigQuery 資料表:

主控台

  1. 在 Cloud Console 中開啟 BigQuery 網頁版 UI。
    前往 Cloud Console

  2. 在導覽面板的「Resources」(資源) 區段中展開您的專案,然後選取某個資料集。

  3. 在視窗右側的詳細資料面板中,按一下 [Create table] (建立資料表)。載入資料的程序,與建立空白資料表的程序相同。

    建立資料表

  4. 在「Create table」(建立資料表) 頁面的「Source」(來源) 區段中:

    • 針對「Create table from」(使用下列資料建立資料表),選取 [Upload] (上傳)。

      上傳資料表

    • 在「Select file」(選取檔案) 下方,按一下 [Browse] (瀏覽)。

      瀏覽檔案

    • 瀏覽至檔案,然後按一下 [Open] (開啟)。請注意,本機檔案不支援萬用字元和以半形逗號分隔的清單。

    • 針對「File format」(檔案格式),選取 [CSV]、[JSON (newline delimited)] (JSON (以換行符號分隔))、[Avro]、[Parquet] 或 [ORC]。

  5. 在「Create table」(建立資料表) 頁面的「Destination」(目的地) 區段中:

    • 針對「Dataset name」(資料集名稱),選擇適當的資料集。

      選取資料集

    • 在「Table name」(資料表名稱) 欄位中,輸入您要在 BigQuery 中建立資料表時使用的名稱。

    • 確認「Table type」(資料表類型) 已設為「Native table」(原生資料表)。

  6. 在「Schema」(結構定義) 區段中,輸入結構定義

    • 如為 CSV 及 JSON 檔案,您可以勾選 [Auto-detect] (自動偵測) 選項,以啟用結構定義自動偵測功能。您可以在其他支援檔案類型的來源資料中找到結構定義資訊。

    • 您也可以使用下列其中一種方式,手動輸入結構定義資訊:

      • 按一下 [Edit as text] (以文字形式編輯),然後以 JSON 陣列的形式輸入資料表結構定義:

      • 使用 [Add Field] (新增欄位) 手動輸入結構定義。

  7. 在「Advance options」(進階選項) 區段中,針對「Write preference」(寫入偏好設定) 選擇 [Write if empty] (空白時寫入)、[Append to table] (附加到資料表中) 或 [Overwrite table] (覆寫資料表)。

  8. 按一下 [Create Table] (建立資料表)

傳統版 UI

  1. 在「Create Table」(建立資料表) 頁面的「Source Data」(來源資料) 區段中:
    • 針對「Location」(位置),選取 [File upload] (檔案上傳),然後按一下 [Choose file] (選擇檔案) 並瀏覽到某個檔案,再按一下 [Open] (開啟)。請注意,本機檔案不支援萬用字元和以半形逗號分隔的清單。
    • 針對「File format」(檔案格式),選取 [(CSV)]、[JSON (newline delimited)] (JSON (以換行符號分隔))、[Avro]、[Parquet] 或 [ORC]。
  2. 在「Create Table」(建立資料表) 頁面的「Destination Table」(目的地資料表) 區段中:
    • 針對「Table name」(資料表名稱) 選擇適當的資料集,並在「Table name」(資料表名稱) 欄位中,輸入您要附加或覆寫的資料表名稱。
    • 確認「Table type」(資料表類型) 已設為「Native table」(原生資料表)。
  3. 在「Schema」(結構定義) 區段中,輸入結構定義。如要更新結構定義,請新增欄位,或是將欄位從 REQUIRED 變更 (放寬) 為 NULLABLE

    • 如為 JSON 檔案,您可以勾選 [Auto-detect] (自動偵測) 選項,以啟用結構定義自動偵測功能。

      自動偵測連結

    • 您也可以使用下列其中一種方式,手動輸入結構定義資訊:

      • 按一下 [Edit as text] (以文字形式編輯),然後以 JSON 陣列的形式輸入資料表結構定義:

        以 JSON 陣列的形式新增結構定義

      • 使用 [Add Field] (新增欄位) 手動輸入結構定義:

        使用新增欄位功能以新增結構定義

  4. 在「Options」(選項) 區段中,針對「Write preference」(寫入偏好設定) 選擇 [Write if empty] (空白時寫入)、[Append to table] (附加到資料表中) 或 [Overwrite table] (覆寫資料表)。

    使用新增欄位功能以新增結構定義

  5. 按一下 [Create Table] (建立資料表)

CLI

請輸入 bq load 指令,搭配 --replace 旗標以覆寫資料表。如要將資料附加到資料表,請使用 --noreplace 旗標。如果您沒有指定任何旗標,預設值會是附加資料。

(選用) 請提供 --location 旗標,並將該值設定為您的位置

當您將資料附加到資料表,或是覆寫資料表時,可以使用 --schema_update_option 旗標,將目的地資料表的結構定義更新成新資料的結構定義。下列選項可與 --schema_update_option 旗標搭配使用:

  • ALLOW_FIELD_ADDITION:為結構定義新增欄位,但新的欄位不得為 REQUIRED
  • ALLOW_FIELD_RELAXATION:將必填欄位放寬為可以為空值;重複此選項即可指定一連串的值
bq --location=location load \
--[no]replace \
dataset.table \
path_to_source \
schema

其中:

  • location 是您的位置。--location 旗標是可省略的。舉例來說,如果您在東京地區使用 BigQuery,請將該旗標的值設定為 asia-northeast1。您可以使用 .bigqueryrc 檔案,設定位置的預設值。
  • 「dataset」是現有資料集。
  • 「table」是您要載入資料的目標資料表名稱。
  • 「path_to_source」是本機檔案的路徑。請注意,本機檔案不支援以萬用字元和逗號分隔的清單。
  • 「schema」是有效的結構定義。結構定義可以是本機 JSON 檔案,或是自己輸入成指令的一部分。您也可以改用 --autodetect 旗標,而非提供結構定義。

此外,您也可以針對 JSON 選項CSV 選項新增旗標,以便控制 BigQuery 剖析資料的方式。

範例:

下列指令會載入 mydata.json 中的資料,並覆寫 mydataset 中名為 mytable 的資料表。這個結構定義是使用結構定義自動偵測功能定義的。

    bq load \
    --autodetect \
    --replace \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.json

下列指令會載入 mydata.json 中的資料,並將資料附加至 mydataset 中名為 mytable 的資料表。這個結構定義是使用 JSON 結構定義檔 (myschema.json) 定義的。

    bq load \
    --autodetect \
    --noreplace \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.json \
    ./myschema.json

下列指令會載入 mydata.json 中的資料,並將資料附加至 mydataset 中名為 mytable 的資料表。這個範例會使用名為 myschema.json 的本機 JSON 結構定義檔。該結構定義包含目的地資料表中沒有的新欄位。

    bq load \
    --noreplace \
    --schema_update_option=ALLOW_FIELD_ADDITION \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.json \
    ./myschema.json

下列指令會載入 mydata.csv 中的資料,並將資料附加至 mydataset 中名為 mytable 的資料表。這個範例會使用名為 myschema.json 的本機 JSON 結構定義檔。該結構定義會將兩個 REQUIRED 欄位變更 (放寬) 為 NULLABLE

    bq load \
    --noreplace \
    --schema_update_option=ALLOW_FIELD_RELAXATION \
    --source_format=NEWLINE_DELIMITED_JSON \
    mydataset.mytable \
    ./mydata.csv \
    ./myschema.json

API 上傳作業

媒體上傳功能可讓 BigQuery API 將資料儲存至雲端,以供伺服器使用。使用者可能想上傳的資料種類包括相片、影片、PDF 檔案、ZIP 檔案,或是任何其他類型的資料。

上傳選項

BigQuery API 可讓您上傳特定類型的二進位資料或媒體。您可以針對支援媒體上傳作業的任何方法,在相關參照頁面上指定可上傳資料的特性:

  • 「Maximum upload file size」:您可以使用這個方法儲存的資料量上限。
  • 「Accepted media MIME types」:您可以使用這個方法儲存的二進位資料類型。

您可以透過下列任何一種方式提出上傳要求。請利用 uploadType 要求參數,指定您要使用的方法。

  • 多部分上傳作業uploadType=multipart。適合為較小型的檔案和中繼資料進行快速的傳輸作業;可在單一要求中,將檔案與描述該檔案的中繼資料一起傳輸完畢。
  • 支援續傳的上傳作業uploadType=resumable。可靠的傳輸作業,對於較大型的檔案特別重要。透過這個方法,您可以使用工作階段啟動要求,其中可以選擇是否包含中繼資料。對於大多數的應用程式而言,這是不錯的策略,因為這也適用於較小型的檔案,您只需要為每次上傳作業額外支付一次 HTTP 要求的費用即可。

當您上傳媒體時,會使用特殊的 URI。事實上,支援媒體上傳作業的方法都有兩個 URI 端點:

  • /upload URI,適用於媒體。上傳端點的格式,就是標準資源 URI 加上「/upload」前置字串。當您傳輸媒體資料本身時,請使用這個 URI。範例:POST /upload/bigquery/v2/projects/projectId/jobs
  • 標準資源 URI,適用於中繼資料。如果資源包含任何資料欄位,這些欄位會用來儲存描述已上傳檔案的中繼資料。當您建立或更新中繼資料值時,可以使用這個 URI。範例:POST /bigquery/v2/projects/projectId/jobs

多部分上傳作業

如果您有要隨資料一起上傳的中繼資料,可以提出單一 multipart/related 要求。如果您要傳送的資料小到足以在連線失敗時再完整上傳一次,這就是個不錯的選擇。

如要使用多部分上傳作業,請向方法的 /upload URI 發出 POST 要求,並新增查詢參數 uploadType=multipart,例如:

POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart

提出多部分上傳要求時,要使用的頂層 HTTP 標頭包括:

  • Content-Type:請設定成 multipart/related,並加入要用來辨識各個要求部分的邊界字串。
  • Content-Length:請設定成要求主體中的位元組總數。要求中的媒體部分,必須小於針對這個方法指定的檔案大小上限。

要求主體的格式為 multipart/related 內容類型 [RFC2387],其中包含兩個部分。這些部分是靠邊界字串來辨識的,而緊接在最後一個邊界字串後面會有兩個連字號。

多部分要求的每個部分都需要一個額外的 Content-Type 標頭:

  1. 中繼資料部分:必須是要求的第一個部分,且 Content-Type 必須符合系統接受的其中一種中繼資料格式。
  2. 媒體部分:必須是要求的第二個部分,且 Content-Type 必須符合該方法可接受的其中一種媒體 MIME 類型。

如要瞭解每個方法可接受的媒體 MIME 類型清單,以及已上傳檔案的大小限制,請參閱 API 參考資料

注意:如果您只需要建立或更新中繼資料部分,不會上傳相關聯的資料,您只要把 POSTPUT 要求傳送給標準資源端點即可:https://www.googleapis.com/bigquery/v2/projects/projectId/jobs

範例:多部分上傳作業

以下範例顯示 BigQuery API 的多部分上傳要求。

POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=multipart HTTP/1.1
Host: www.googleapis.com
Authorization: Bearer your_auth_token
Content-Type: multipart/related; boundary=foo_bar_baz
Content-Length: number_of_bytes_in_entire_request_body

--foo_bar_baz
Content-Type: application/json; charset=UTF-8

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}

--foo_bar_baz
Content-Type: */*

CSV, JSON, AVRO, PARQUET, or ORC data
--foo_bar_baz--

如果要求成功,伺服器會傳回 HTTP 200 OK 狀態碼,以及所有中繼資料:

HTTP/1.1 200
Content-Type: application/json

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}

支援續傳的上傳作業

如要更可靠地上傳資料檔案,您可以使用支援續傳的上傳通訊協定。這個通訊協定可讓您在通訊問題導致上傳作業的資料傳輸過程中斷之後,能夠繼續執行上傳作業。如果您要傳輸大型檔案,而且發生網路中斷或其他傳輸問題的可能性很高 (例如從行動裝置用戶端應用程式上傳時),這種方法就特別有用。這方法也能在網路發生問題時降低頻寬用量,因為您不需要從頭開始上傳大型檔案。

使用支援續傳的上傳作業的步驟包括:

  1. 啟動可續傳的工作階段。對包含中繼資料 (如果有的話) 的上傳 URI 提出初始要求。
  2. 儲存可續傳的工作階段 URI。儲存在初始要求回應中傳回的工作階段 URI;您在這個工作階段的剩餘要求中用到它。
  3. 上傳檔案。將媒體檔案傳送到可續傳的工作階段 URI。

此外,使用可續傳上傳功能的應用程式,必須擁有繼續執行中斷的上傳作業小節中的程式碼。如果上傳作業中斷,請找出已成功接收多少資料,然後從那一點開始續傳。

注意:上傳 URI 會在一週後失效。

步驟 1:啟動可續傳的工作階段

如要啟動可續傳上傳作業,請向方法的 /upload URI 發出 POST 要求,並新增查詢參數 uploadType=resumable,例如:

POST https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable

這個初始要求的主體會是空白的,或是只包含中繼資料;您將在後續的要求中,傳輸您要上傳的檔案中的實際內容。

請將下列 HTTP 標頭與初始要求搭配使用:

  • X-Upload-Content-Type:請設定為要在後續要求中傳輸的上傳資料媒體 MIME 類型。
  • X-Upload-Content-Length:請設定為要在後續要求中傳輸的上傳資料位元組數。如果您在提出該要求時不知道這個位元組數,可以省略這個標頭。
  • 如果要提供中繼資料,請使用 Content-Type。請根據中繼資料的資料類型來設定。
  • Content-Length:請設定為您在該初始要求主體中提供的位元組數。如果您要使用區塊傳輸編碼,就不需要這個標頭。

如要瞭解每個方法可接受的媒體 MIME 類型清單,以及已上傳檔案的大小限制,請參閱 API 參考資料

範例:可續傳工作階段啟動要求

以下範例顯示,如何針對 BigQuery API 啟動可續傳的工作階段。

POST /upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable HTTP/1.1
Host: www.googleapis.com
Authorization: Bearer your_auth_token
Content-Length: 38
Content-Type: application/json; charset=UTF-8
X-Upload-Content-Type: */*
X-Upload-Content-Length: 2000000

{
  "configuration": {
    "load": {
      "sourceFormat": "NEWLINE_DELIMITED_JSON",
      "schema": {
        "fields": [
          {"name": "f1", "type": "STRING"},
          {"name": "f2", "type": "INTEGER"}
        ]
      },
      "destinationTable": {
        "projectId": "projectId",
        "datasetId": "datasetId",
        "tableId": "tableId"
      }
    }
  }
}

注意:針對不含中繼資料的初始可續傳更新要求,請將要求主體留白,並將 Content-Length 標頭設定為 0

下一節將說明如何處理回應。

步驟 2:儲存可續傳的工作階段 URI

如果工作階段啟動要求成功,API 伺服器就會傳回包含 200 OK HTTP 狀態碼的回應。此外,API 伺服器還提供會指定可續傳工作階段 URI 的 Location 標頭。如以下範例所示,Location 標頭包含 upload_id 查詢參數,可提供這個工作階段所用的唯一上傳 ID。

範例:可續傳工作階段啟動作業的回應

以下是步驟 1 中要求的回應:

HTTP/1.1 200 OK
Location: https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2
Content-Length: 0

如以上回應範例所示,Location 標頭的值,就是您將做為 HTTP 端點的工作階段 URI,且這個 HTTP 端點將用於執行實際檔案上傳作業或查詢上傳狀態。

請複製並儲存工作階段 URI,好讓您能夠在後續的要求中使用。

步驟 3:上傳檔案

如要上傳檔案,請傳送 PUT 要求給您在上一個步驟中取得的上傳 URI。上傳要求的格式如下:

PUT session_uri

當您在提出可續傳檔案上傳要求時,要使用的 HTTP 標頭包含 Content-Length。請把它設定為您要在這個要求中上傳的位元組數,這通常就是上傳檔案的大小。

範例:可續傳檔案上傳要求

以下是要在目前的範例中,上傳完整的 2,000,000 位元組 CSV、JSON、AVRO 或 PARQUET 檔案的可續傳要求。

PUT https://www.googleapis.com/upload/bigquery/v2/projects/projectId/jobs?uploadType=resumable&upload_id=xa298sd_sdlkj2 HTTP/1.1
Content-Length: 2000000
Content-Type: */*

bytes 0-1999999

如果要求成功,伺服器會傳回包含 HTTP 201 Created 的回應,加上與這個資源相關聯的所有中繼資料。如果可續傳工作階段的初始要求曾經是 PUT,如要更新現有資源,成功的回應就會是 200 OK,加上與這個資源相關聯的所有中繼資料。

如果上傳要求中斷,或是您從伺服器收到 HTTP 503 Service Unavailable 或任何其他的 5xx 回應,請依照繼續執行中斷的上傳作業小節所述的程序進行。


將檔案以區塊的形式上傳

透過可續傳的上傳作業,您可將檔案切割為片段,然後傳送一系列要求來依序上傳每個片段。這不是大家偏好的方式,因為您必須承擔與額外的要求相關聯的效能成本,而這通常是沒有必要的。然而,您可能需要使用切割成區塊的方式,減少要在任何單一要求中傳輸的資料量。當個別的要求有固定的時間限制時,這方式就很有用,對於 Google App Engine 要求的某些類別而言也是如此。這方式也能讓您做些其他的事,例如讓預設不支援顯示上傳進度的舊版瀏覽器顯示上傳進度。


繼續執行中斷的上傳作業

如果上傳要求在您收到回應之前就終止了,或是您收到伺服器傳回的 HTTP 503 Service Unavailable 回應,您就必須繼續執行中斷的上傳作業。操作說明如下:

  1. 要求狀態:請向上傳 URI 提出空白的 PUT 要求,以便查詢上傳作業目前的狀態。針對這個要求,HTTP 標頭應該包含會指出目前在檔案中位置不明的 Content-Range。舉例來說,如果檔案的總長度是 2,000,000,請將 Content-Range 設定為 */2000000。如果您不知道檔案的完整大小,請將 Content-Range 設定為 */*

    附註:您可以在不同區塊的上傳作業之間提出狀態要求,而不是只能在上傳中斷時提出要求。舉例來說,當您要讓舊版瀏覽器顯示上傳進度時,這功能就很有用。

  2. 取得已上傳的位元組數:請處理狀態查詢的回應。伺服器會在自己的回應中使用 Range 標頭,指出當下已接收到哪些位元組。舉例來說,如果 Range 標頭是 0-299999,代表伺服器已接收到檔案的前 300,000 個位元組。
  3. 上傳剩餘的資料:最後,既然您已經知道要從哪裡繼續提出要求,請傳送剩餘的資料或目前的區塊。請注意,無論如何,您都必須要把剩餘的資料當做單獨的區塊來處理,因此您必須在繼續執行上傳作業時傳送 Content-Range 標頭。
範例:繼續執行中斷的上傳作業

1) 要求上傳狀態。

以下要求使用 Content-Range 標頭,指出目前在 2,000,000 位元組檔案中的位置不明。

PUT {session_uri} HTTP/1.1
Content-Length: 0
Content-Range: bytes */2000000

2) 從回應擷取當下已經上傳的位元組數。

伺服器的回應會使用 Range 標頭,指出伺服器當下已經收到檔案的前 43 個位元組。請使用在 Range 標頭中的上限值,決定要從哪裡繼續上傳。

HTTP/1.1 308 Resume Incomplete
Content-Length: 0
Range: 0-42

注意:如果上傳作業已經完成,狀態回應可能會是 201 Created200 OK。如果連線在所有位元組都已上傳之後,但在用戶端收到伺服器的回應之前中斷,就可能發生這種情況。

3) 從上次離開的位置續傳上傳作業。

以下要求透過傳送檔案的剩餘位元組 (從位元組 43 開始) 續傳上傳作業。

PUT {session_uri} HTTP/1.1
Content-Length: 1999957
Content-Range: bytes 43-1999999/2000000

bytes 43-1999999

最佳做法

當您要上傳媒體時,瞭解幾個與錯誤處理相關的最佳做法是很有用的。

  • 請繼續或重新執行因連線中斷或因任何 5xx 錯誤導致失敗的上傳作業,這些錯誤包括:
    • 500 Internal Server Error
    • 502 Bad Gateway
    • 503 Service Unavailable
    • 504 Gateway Timeout
  • 如果您在繼續或重試上傳要求時,收到任何 5xx 伺服器錯誤,請使用指數輪詢策略。如果伺服器超載,就可能發生這些錯誤。在發生大量要求或存在繁重網路流量期間,指數輪詢可協助減輕這一類問題。
  • 其他類型的要求不應透過指數輪詢處理,但您仍可重試其中一些要求。重試這些要求時,請限制重試的次數。舉例來說,您的程式碼可能會限制為在最多重試十次之後,才會回報錯誤。
  • 如要處理在執行可續傳上傳作業時收到的 404 Not Found410 Gone 錯誤,請從頭開始執行整個上傳作業。

指數輪詢

指數輪詢是網路應用程式的標準錯誤處理策略,用戶端可透過這種策略,以逐漸增加的次數定期重試失敗的要求。如果大量要求或繁重的網路流量導致伺服器傳回錯誤,指數輪詢就是處理這類錯誤的一種不錯的策略。相反地,處理與網路流量或回應時間相關的錯誤 (例如授權憑證無效或找不到檔案的錯誤) 並不是很有意義的策略。

在正確的使用之下,指數輪詢可以提升頻寬使用的效率,減少取得成功回應所需的要求數,並最大化並行環境中的要求總處理量。

下列是簡單的指數輪詢實作流程:

  1. 對 API 提出要求。
  2. 收到指出您應該要重試要求的 HTTP 503 回應。
  3. 等待 1 秒鐘 + random_number_milliseconds 毫秒,然後重試要求。
  4. 收到指出您應該要重試要求的 HTTP 503 回應。
  5. 等待 2 秒鐘 + random_number_milliseconds 毫秒,然後重試要求。
  6. 收到指出您應該要重試要求的 HTTP 503 回應。
  7. 等待 4 秒鐘 + random_number_milliseconds 毫秒,然後重試要求。
  8. 收到指出您應該要重試要求的 HTTP 503 回應。
  9. 等待 8 秒鐘 + random_number_milliseconds 毫秒,然後重試要求。
  10. 收到指出您應該要重試要求的 HTTP 503 回應。
  11. 等待 16 秒鐘 + random_number_milliseconds 毫秒,然後重試要求。
  12. 停止。回報或記錄錯誤。

在以上流程中,random_number_milliseconds 是小於或等於 1000 的隨機毫秒數。這是必要的,因為使用較小的隨機延遲有助於更平均地分散負載,並避免對伺服器產生衝擊的可能性。必須在每次等待之後重新定義 random_number_milliseconds 的值。

注意:等待時間一律是 (2 ^ n) + random_number_milliseconds,其中 n 是一開始定義為 0 的單調遞增整數。對於每個疊代 (每次要求),整數 n 會遞增 1。

演算法已設定為會在 n 等於 5 時終止。這個上限可以防止用戶端一直重試下去,導致要求在總延遲時間達到約 32 秒之後,才會被視為「無法復原的錯誤」。您可以把重試次數的上限設高一點,尤其是在大型上傳作業執行的過程中;但請確保要把重試延遲時間的上限設定在合理的地方,例如短於一分鐘。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
需要協助嗎?請前往我們的支援網頁