Amazon S3 转移作业概览

借助适用于 Amazon S3 的 BigQuery Data Transfer Service,您可以自动安排和管理从 Amazon S3 到 BigQuery 中的周期性加载作业。

支持的文件格式

BigQuery Data Transfer Service 目前支持从 Amazon S3 加载采用以下某种格式的数据:

  • 逗号分隔值 (CSV)
  • JSON(以换行符分隔)
  • Avro
  • Parquet
  • ORC

Amazon S3 前提条件

要从 Amazon S3 数据源加载数据,您必须满足以下前提条件:

  • 提供源数据的 Amazon S3 URI
  • 拥有访问密钥 ID
  • 拥有私有访问密钥
  • 至少在 Amazon S3 源数据上设置 AWS 托管政策 AmazonS3ReadOnlyAccess

Amazon S3 URI

在您提供 Amazon S3 URI 时,路径必须采用以下格式:s3://bucket/folder1/folder2/...。 只有顶级存储分区名称是必需的。文件夹名称是可选的。如果指定的 URI 仅包含存储分区名称,则存储分区中的所有文件都会转移并加载到 BigQuery 中。

Amazon S3 URI 和目标表都可以参数化,以便您能够从按日期整理的 Amazon S3 存储分区加载数据。请注意,目前无法参数化 URI 的存储分区部分。Amazon S3 转移作业使用的参数与 Cloud Storage 转移作业使用的参数相同。

Amazon S3 URI 的通配符支持

如果源数据分散在多个共用一个共同的基本名称的文件中,则加载数据时可以在 URI 中使用通配符。

要向 URI 中添加通配符,您可以在基本名称中附加一个星号 (*)。例如,如果您有两个名为 fed-sample000001.csvfed-sample000002.csv 的文件,则存储分区 URI 将是 s3://mybucket/fed-sample*

存储分区中的对象(文件名)仅可使用一个通配符。通配符可以出现在对象名称内或对象名称末尾。不支持在存储分区名称中附加通配符。

AWS 访问密钥

访问密钥 ID 和私有访问密钥用于代表您访问 Amazon S3 数据。最佳做法是专门为 Amazon S3 转移作业创建唯一的访问密钥 ID 和私有访问密钥,以便提供访问 BigQuery Data Transfer Service 所需的最低访问权限。如需了解如何管理访问密钥,请参阅 AWS 一般参考文档

一致性考虑因素

从 Amazon S3 转移数据时,有些数据可能无法转移到 BigQuery,尤其是文件刚刚才添加到存储分区的情况下。文件添加到存储分区后,可能需要大约 10 分钟的时间才能供 BigQuery Data Transfer Service 使用。

但是在某些情况下,所需时间可能超过 10 分钟。为降低丢失数据的可能性,请将 Amazon S3 转移作业安排在文件添加到存储分区后至少 10 分钟的时间。如需详细了解 Amazon S3 一致性模型,请参阅 Amazon S3 文档中的 Amazon S3 数据一致性模型

价格

如需了解 BigQuery Data Transfer Service 价格,请参阅价格页面。

请注意,使用此服务可能会产生 Google 产品之外费用。如需了解详情,请查看 Amazon S3 价格页面

配额和限制

BigQuery Data Transfer Service 使用加载作业将 Amazon S3 数据加载到 BigQuery 中。BigQuery 对加载作业的所有配额和限制都适用于周期性 Amazon S3 转移作业。

后续步骤

此页内容是否有用?请给出您的反馈和评价:

发送以下问题的反馈:

此网页
需要帮助?请访问我们的支持页面