Cloud Storage 连接器

Cloud Storage 连接器是一个开源 Java 库,可让您直接针对 Cloud Storage 中的数据运行 Apache HadoopApache Spark 作业;与选择 Hadoop 分布式文件系统 (HDFS) 相比,Cloud Storage 连接器具有多项优势。

Cloud Storage 连接器的优点

  • 直接数据访问 - 将数据存储到 Cloud Storage 中并直接访问。您无需先将其转移到 HDFS。
  • HDFS 兼容性 - 您可以使用 gs:// 前缀取代 hdfs:// 来轻松访问 Cloud Storage 中的数据。
  • 互操作性 - 通过在 Cloud Storage 中存储数据,可实现 Spark、Hadoop 和 Google 服务之间的无缝互操作性。
  • 数据可访问性-与 HDFS 不同,当您关闭 Hadoop 集群时,您仍然可以访问 Cloud Storage 中的数据。
  • 高数据可用性 - 存储在 Cloud Storage 中的数据具有高可用性并在全球范围内进行复制,同时性能不会出现损耗。
  • 无存储空间管理开销 - 与 HDFS 不同,Cloud Storage 不需要例行维护,例如检查文件系统、升级或回滚到以前版本的文件系统等。
  • 快速启动 - 在 HDFS 中,MapReduce 作业无法在 NameNode 退出安全模式之前启动;此退出安全模式可能需要几秒到数分钟时间,具体取决于数据的大小和状态。借助 Cloud Storage,只要任务节点启动,您就可以立即启动作业,随着时间推移,这样可以显著节省费用。

获取连接器

Dataproc 集群

默认情况下,Cloud Storage 连接器安装在 /usr/local/share/google/dataproc/lib/ 目录下所有 Dataproc 集群节点上。

如果您的应用依赖的连接器版本与 Dataproc 集群上部署的默认连接器版本不同,则您必须执行以下操作之一:

  1. 使用 --metadata GCS_CONNECTOR_VERSION=x.y.z 标志创建新集群,该标志会将应用使用的连接器更新为指定的连接器版本;或者
  2. 将您正在使用的版本的连接器类和连接器依赖项包括在内并重新定位到应用的 Jar 文件中,这样您使用的连接器版本就不会与部署在 Dataproc 集群中的连接器版本发生冲突(请参阅 Maven 中的依赖项重新定位示例)。

非 Dataproc 集群

  1. 下载连接器。

    如需为 Hadoop 下载 Cloud Storage 连接器,请执行以下操作:

  2. 安装连接器。

    请参阅在 GitHub 上安装连接器,以安装、配置和测试 Cloud Storage 连接器。

使用连接器

您可以通过多种方式访问 Cloud Storage 中存储的数据:

资源

Java 版本

Cloud Storage 连接器需要 Java 8。

Apache Maven 依赖关系信息

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
    <scope>provided</scope>
</dependency>

如需了解详情,请参阅 Cloud Storage 连接器版本说明Javadoc 参考

后续步骤