BigQuery 连接器

您可以使用 BigQuery 连接器来启用针对 BigQuery 的程序化读取/写入权限。此方法适合处理存储在 BigQuery 中的数据。未公开命令行访问。 BigQuery 连接器是一个库,它使 Spark 和 Hadoop 应用能够处理来自 BigQuery 的数据,并使用其本地术语将数据写入 BigQuery。

价格注意事项

使用连接器时,您需要支付 BigQuery 使用费。 您可能还需要支付以下服务专属费用:

  • Cloud Storage - 连接器在作业执行之前或期间将数据下载到 Cloud Storage 存储桶。成功完成作业后,系统会从 Cloud Storage 中删除数据。您需要根据 Cloud Storage 价格支付此存储空间的费用。为避免超额费用,请检查您的 Cloud Storage 账号并移除不需要的临时文件。
  • BigQuery Storage API - 为达到更好的性能,该连接器使用 BigQuery Storage API 读取数据。您需要根据 BigQuery Storage API 价格支付此使用量的费用。

可用的连接器

以下 BigQuery 连接器可在 Hadoop 生态系统中使用:

  1. Spark BigQuery 连接器添加一个 Spark 数据源,它允许 DataFrame 使用 Spark 的 readwrite 操作与 BigQuery 表直接交互。
  2. Hive BigQuery 连接器添加了存储处理程序,允许 Apache Hive 使用 HiveQL 语法直接与 BigQuery 表进行交互。
  3. Hadoop BigQuery 连接器使 Hadoop 映射器和缩减器能够使用精简版本 InputFormatOutputFormat 类与 BigQuery 表进行交互。

使用连接器

如需使用 BigQuery 连接器的快速入门,请参阅以下示例:

后续步骤