Amazon S3 轉移作業總覽

Amazon S3 專用的 BigQuery 資料移轉服務可讓您自動安排和管理從 Amazon S3 到 BigQuery 的週期性載入工作。

支援的檔案格式

現階段,BigQuery 資料移轉服務可讓您透過以下格式從 Amazon S3 載入資料:

  • 逗號分隔值 (CSV)
  • JSON (以換行符號分隔)
  • Avro
  • Parquet
  • ORC

Amazon S3 必備條件

從 Amazon S3 資料來源載入資料的必要事項

  • 提供您來源資料的 Amazon S3 URI
  • 具備存取金鑰 ID
  • 具備私密存取金鑰
  • 至少需針對 Amazon S3 來源資料設定 AWS 代管政策 AmazonS3ReadOnlyAccess

Amazon S3 URI

在提供 Amazon S3 URI 時,路徑必須採用以下格式 s3://bucket/folder1/folder2/... 只有頂層值區名稱是必要的,不一定要提供資料夾名稱。如果指定的 URI 僅含有值區名稱,則會移轉值區中的所有檔案並載入到 BigQuery 中。

Amazon S3 URI 和目的地資料表都可以參數化,可讓您以按日期排列的 Amazon S3 值區載入資料。請注意,目前的 URI 值區部分無法參數化。Amazon S3 移轉作業使用的參數與 Cloud Storage 移轉作業使用的參數相同。

Amazon S3 URI 對於萬用字元的支援範圍

如果來源資料分成多個含有相同基礎名稱的檔案,則可以在載入資料時,在 URI 中使用萬用字元。

如要將萬用字元新增至 URI,請為基礎名稱加上星號 (*)。舉例來說,如果您有兩個名為 fed-sample000001.csvfed-sample000002.csv 的檔案,則值區 URI 會是 s3://mybucket/fed-sample*

對於值區內的物件 (檔案名稱) 您只能使用一個萬用字元。萬用字元可以出現在物件名稱內或物件名稱的末端。系統不支援為值區名稱加上萬用字元。

AWS 存取金鑰

存取金鑰 ID 和私密存取金鑰用於代表您存取 Amazon S3 資料。最佳做法是建立 Amazon S3 移轉作業專用的唯一存取金鑰 ID 和私密存取金鑰,以提供 BigQuery 資料移轉服務的最低存取權。如需有關管理存取金鑰的資訊,請參閱 AWS 一般參考說明文件

一致性考量

從 Amazon S3 移轉資料時,有些資料可能無法移轉到 BigQuery,如果最近才將檔案新增至值區中,更是如此。將檔案新增至值區後,BigQuery 資料移轉服務可能需要大約 10 分鐘才能提供該檔案。

但在某些情況下,可能需要超過 10 分鐘。為了降低遺失資料的可能性,將檔案新增至值區後,請等待至少 10 分鐘後再安排 Amazon S3 移轉作業。如需進一步瞭解 Amazon S3 一致性模型,請參閱 Amazon S3 說明文件中的 Amazon S3 資料一致性模型一節。

定價

如需 BigQuery 資料移轉服務定價的相關資訊,請參閱定價頁面。

請注意,使用此服務可能產生 Google 之外的費用。詳情請詳閱 Amazon S3 定價頁面

配額與限制

BigQuery 資料移轉服務會使用載入工作,將 Amazon S3 資料載入到 BigQuery 中。所有 BigQuery 載入工作的配額和限制均適用於週期性的 Amazon S3 移轉作業。

後續步驟

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁