Conector de Cloud Storage

El conector de Cloud Storage es una biblioteca Java de código abierto que te permite ejecutar trabajos de Apache Hadoop o Apache Spark directamente en los datos en Cloud Storage y ofrece una serie de beneficios sobre el sistema de archivos distribuidos de Hadoop (HDFS).

Beneficios del conector de Cloud Storage

  • Acceso directo a datos: Almacena tus datos en Cloud Storage y accede a ellos directamente, sin necesidad de transferirlos a HDFS primero.
  • Compatibilidad con HDFS: Puedes acceder fácilmente a tus datos en Cloud Storage con el prefijo gs:// en lugar de hdfs://.
  • Interoperabilidad: El almacenamiento de datos en Cloud Storage permite una interoperabilidad perfecta entre los servicios de Spark, Hadoop y Google.
  • Accesibilidad a los datos: Cuando cierras un clúster de Hadoop, aún tienes acceso a tus datos en Cloud Storage, a diferencia de HDFS.
  • Alta disponibilidad de los datos: Los datos almacenados en Cloud Storage están altamente disponibles y replicados de forma global sin perder rendimiento.
  • Sobrecarga de administración sin almacenamiento: A diferencia de HDFS, Cloud Storage no requiere mantenimiento de rutina, como revisar el sistema de archivos, actualizarlo o revertirlo a una versión anterior del sistema de archivos, etcétera.
  • Inicio rápido: En HDFS, un trabajo MapReduce no puede iniciarse hasta que el NameNode se encuentre fuera del modo seguro, un proceso que puede demorar unos pocos segundos o varios minutos, según el tamaño y el estado de tus datos. Con Cloud Storage, puedes comenzar tu trabajo en cuanto se inicien los nodos de tareas, lo que genera importantes ahorros de costos a lo largo del tiempo.

Obtén el conector

Clústeres de Dataproc

El conector de Cloud Storage se instala de forma predeterminada en todos los nodos del clúster de Dataproc en /usr/lib/hadoop/lib/ (para las versiones de imagen 1.4 y posteriores, la ubicación es /usr/local/share/google/dataproc/lib/). Está disponible en entornos Spark y PySpark.

Otros clústeres de Spark/Hadoop

Puedes descargar los siguientes conectores de Cloud Storage para Hadoop:

  1. Conector de Cloud Storage para Hadoop 1.x
  2. Conector de Cloud Storage para Hadoop 2.x
  3. Conector de Cloud Storage para Hadoop 3.x
Consulta la documentación sobre cómo instalar el conector de Cloud Storage para instalar y configurar el conector.

Usa el conector

Hay varias formas de acceder a los datos almacenados en Cloud Storage:

Recursos

Versión de Java

El conector de Cloud Storage requiere Java 8.

Información sobre las dependencias de Apache Maven

    <dependency>
        <groupId>com.google.cloud.bigdataoss</groupId>
        <artifactId>gcs-connector</artifactId>
        <version>insert "hadoopX-X.X.X" connector version number here</version>
        <scope>provided</scope>
    </dependency>
    

Para obtener información más detallada, consulta las notas de la versión del conector de Cloud Storage y la referencia de Javadoc.

Qué sigue