Cloud Storage 移轉作業總覽

Cloud Storage 專用 BigQuery 資料移轉服務可安排週期性資料載入工作,將資料從 Cloud Storage 載入 BigQuery。Cloud Storage 路徑和目的地資料表皆可參數化,讓您依 Cloud Storage 值區的日期順序從中載入資料。

支援的檔案格式

BigQuery 資料移轉服務目前可從 Cloud Storage 載入下列格式的資料:

  • 逗號分隔值 (CSV)
  • JSON (以換行符號分隔)
  • Avro
  • Parquet
  • ORC

Cloud Storage URI

如要從 Cloud Storage 資料來源載入資料,您必須提供 Cloud Storage URI。

Cloud Storage URI 包含您的值區名稱和物件 (檔名)。舉例來說,如果 Cloud Storage 值區的名稱為 mybucket 且資料檔案的名稱為 myfile.csv,則值區 URI 會是 gs://mybucket/myfile.csv。如果資料分成多個檔案,您可以在 URI 中使用萬用字元。詳情請參閱 Cloud Storage 要求 URI 的說明。

BigQuery 不支援來源 URI 在初始雙斜線後還有多個連續斜線。Cloud Storage 物件名稱可以包含多個連續的斜線 (「/」) 字元,但 BigQuery 會將多個連續斜線轉換成一個斜線。舉例來說,下列來源 URI 在 Cloud Storage 中有效,但在 BigQuery 中則為無效:gs://[BUCKET]/my//object//name

如要擷取 Cloud Storage URI:

  1. 開啟 Cloud Storage 主控台。

    Cloud Storage 主控台

  2. 瀏覽至含有來源資料的物件 (檔案) 位置。

  3. 在 Cloud Storage 主控台的頂端,您會看到物件路徑。如要撰寫 URI,請將 gs://[BUCKET]/[FILE] 替換為適當路徑,例如 gs://mybucket/myfile.json[BUCKET] 是 Cloud Storage 值區名稱,而 [FILE] 是含有資料的物件 (檔案) 名稱。

Cloud Storage URI 的萬用字元支援

如果您的 Cloud Storage 資料分成多個共用通用基礎名稱的檔案,那麼當您載入資料時,可以在 URI 中使用萬用字元。

如要新增萬用字元至 Cloud Storage URI,請為基礎名稱加上星號 (*)。例如,如果您有兩個名為 fed-sample000001.csvfed-sample000002.csv 的檔案,則值區 URI 會是 gs://mybucket/fed-sample*。然後這個萬用字元 URI 就可以用在網頁版 UI 或 CLI 中。

對於值區內的物件 (檔案名稱) 您只能使用一個萬用字元。萬用字元可以出現在物件名稱內或物件名稱的末端。系統不支援為值區名稱加上萬用字元。

位置注意事項

選擇資料的位置時,請考慮下列事項:

  • 將多個 Cloud Storage 值區並置於相同位置,以利載入資料。
    • 如果您的 BigQuery 資料集位於多地區位置,則含有載入資料的 Cloud Storage 值區必須位於相同位置的地區值區或多地區值區。舉例來說,如果您的 BigQuery 資料集是位在歐盟,則 Cloud Storage 值區就必須位於歐盟的地區值區或多地區值區。
    • 如果您的資料集是位在地區位置,則您的 Cloud Storage 值區必須是相同位置的地區值區。舉例來說,如果您的資料集位於東京地區,則您的 Cloud Storage 值區必須是位於東京的地區值區。
    • 例外情況:如果您的資料集位於美國的多地區位置,則您可以從任何單一地區或多地區位置的 Cloud Storage 值區載入資料。
  • 擬定資料管理方案。
    • 如果您選擇的是地區儲存資源,例如 BigQuery 資料集或 Cloud Storage 值區,則請擬定資料的地理區域管理方案。

如要進一步瞭解 Cloud Storage 位置,請參閱 Cloud Storage 說明文件中的值區位置一文。

在不同位置之間移動 BigQuery 資料

資料集建立之後,就無法更改位置。此外,您也無法在不同位置之間移動資料集。如果您需要將資料集移到別的位置,請依循下列流程:

  1. 從 BigQuery 資料表匯出資料到地區或多地區 Cloud Storage 值區,而且這個值區必須跟資料集位於相同位置。舉例來說,如果您的資料集位在歐盟的多地區位置,則應將資料匯出至歐盟的單一地區或多地區值區。

    從 BigQuery 中匯出資料並不需要付費,但是在 Cloud Storage 儲存匯出的資料將產生費用。匯出 BigQuery 資料時,必須遵守匯出工作的相關限制。

  2. 從您的 Cloud Storage 值區中,將資料複製或移動至新位置的地區或多地區值區。舉例來說,如果您要將資料從美國多地區位置移到東京的單一地區位置,則必須把資料移轉到東京的地區值區。要瞭解如何轉移 Cloud Storage 物件的資訊,請參閱 Cloud Storage 說明文件中的重新命名、複製及移動物件頁面。

    請注意,在不同地區之間轉移資料將導致 Cloud Storage 產生網路輸出費用

  3. 當您將資料轉移至新位置的 Cloud Storage 值區之後,請在新位置建立新的 BigQuery 資料集。然後,將您的資料從 Cloud Storage 值區載入 BigQuery。

    將資料載入 BigQuery 無須支付費用,但將資料儲存於 Cloud Storage 則須支付費用,直到您刪除資料或值區為止。載入資料之後,將資料儲存至 BigQuery 亦須支付相關費用。將資料載入 BigQuery 時,必須遵守載入工作的相關限制。

如要進一步瞭解如何使用 Cloud Storage 來儲存及移動大型資料集,請參閱使用 Cloud Storage 處理大數據一文。

定價

如要瞭解 BigQuery 資料移轉服務定價,請參閱定價頁面。

配額與限制

BigQuery 資料移轉服務會使用載入工作將 Cloud Storage 資料載入至 BigQuery 中。所有 BigQuery 對載入工作的配額與限制均適用於週期性 Cloud Storage 載入工作。

後續步驟

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁