您可以使用 BigQuery 连接器来启用针对 BigQuery 的程序化读取/写入权限。此方法适合处理存储在 BigQuery 中的数据。未公开命令行访问。 BigQuery 连接器是一个库,它使 Spark 和 Hadoop 应用能够处理来自 BigQuery 的数据,并使用其本地术语将数据写入 BigQuery。
价格注意事项
使用连接器时,您需要支付 BigQuery 使用费。 您可能还需要支付以下服务专属费用:
- Cloud Storage - 连接器在作业执行之前或期间将数据下载到 Cloud Storage 存储桶。成功完成作业后,系统会从 Cloud Storage 中删除数据。您需要根据 Cloud Storage 价格支付此存储空间的费用。为避免超额费用,请检查您的 Cloud Storage 账号并移除不需要的临时文件。
- BigQuery Storage API - 为达到更好的性能,该连接器使用 BigQuery Storage API 读取数据。您需要根据 BigQuery Storage API 价格支付此使用量的费用。
可用的连接器
以下 BigQuery 连接器可在 Hadoop 生态系统中使用:
- Spark BigQuery 连接器添加一个 Spark 数据源,它允许 DataFrame 使用 Spark 的
read
和write
操作与 BigQuery 表直接交互。 - Hive BigQuery 连接器添加了存储处理程序,允许 Apache Hive 使用 HiveQL 语法直接与 BigQuery 表进行交互。
- Hadoop BigQuery 连接器使 Hadoop 映射器和缩减器能够使用精简版本 InputFormat 和 OutputFormat 类与 BigQuery 表进行交互。
使用连接器
如需使用 BigQuery 连接器的快速入门,请参阅以下示例:
后续步骤
- 详细了解 BigQuery
- 请参阅 Spark 的 BigQuery 示例
- 详细了解 Hive BigQuery 连接器
- 请参阅 Java MapReduce 的 BigQuery 示例