Cloud Storage 连接器

Cloud Storage 连接器是一个开源 Java 库,可让您直接针对 Cloud Storage 中的数据运行 Apache HadoopApache Spark 作业;与选择 Hadoop 分布式文件系统 (HDFS) 相比,Cloud Storage 连接器具有多项优势。

Cloud Storage 连接器的优点

  • 直接数据访问 - 将数据存储到 Cloud Storage 中并直接访问。您无需先将其转移到 HDFS。
  • HDFS 兼容性 - 您可以使用 gs:// 前缀取代 hdfs:// 来轻松访问 Cloud Storage 中的数据。
  • 互操作性 - 通过在 Cloud Storage 中存储数据,可实现 Spark、Hadoop 和 Google 服务之间的无缝互操作性。
  • 数据可访问性-与 HDFS 不同,当您关闭 Hadoop 集群时,您仍然可以访问 Cloud Storage 中的数据。
  • 高数据可用性 - 存储在 Cloud Storage 中的数据具有高可用性并在全球范围内进行复制,同时性能不会出现损耗。
  • 无存储空间管理开销 - 与 HDFS 不同,Cloud Storage 不需要例行维护,例如检查文件系统、升级或回滚到以前版本的文件系统等。
  • 快速启动 - 在 HDFS 中,MapReduce 作业无法在 NameNode 退出安全模式之前启动;此退出安全模式可能需要几秒到数分钟时间,具体取决于数据的大小和状态。借助 Cloud Storage,只要任务节点启动,您就可以立即启动作业,随着时间推移,这样可以显著节省费用。

获取连接器

Dataproc 集群

默认情况下,Cloud Storage 连接器安装在 /usr/lib/hadoop/lib/ 下所有 Dataproc 集群节点上。注意:对于映像版本 1.4 及更高版本,位置为 /usr/local/share/google/dataproc/lib/。Spark 和 PySpark 环境中均可使用该连接器。

其他 Spark/Hadoop 集群

如需为 Hadoop 下载 Cloud Storage 连接器,请执行以下操作:

请参阅安装 Cloud Storage 连接器以安装和配置连接器。

使用连接器

您可以通过多种方式访问 Cloud Storage 中存储的数据:

资源

Java 版本

Cloud Storage 连接器需要 Java 8。

Apache Maven 依赖关系信息

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
    <scope>provided</scope>
</dependency>

如需了解详情,请参阅 Cloud Storage 连接器版本说明Javadoc 参考

后续步骤