Conector de Cloud Storage

El conector de Cloud Storage es una biblioteca Java de código abierto que te permite ejecutar trabajos de Apache Hadoop o Apache Spark directamente en los datos en Cloud Storage y ofrece una serie de beneficios sobre el sistema de archivos distribuidos de Hadoop (HDFS).

Beneficios del conector de Cloud Storage

  • Acceso directo a datos: almacena tus datos en Cloud Storage y accede a ellos directamente, sin necesidad de transferirlos a HDFS primero.
  • Compatibilidad con HDFS: puedes acceder a tus datos en Cloud Storage con facilidad mediante el prefijo gs:// en lugar de hdfs://.
  • Interoperabilidad: el almacenamiento de datos en Cloud Storage permite una interoperabilidad perfecta entre los servicios de Spark, Hadoop y Google.
  • Accesibilidad a los datos: cuando cierras un clúster de Hadoop, aún tienes acceso a tus datos en Cloud Storage, a diferencia de HDFS.
  • Alta disponibilidad de los datos: los datos almacenados en Cloud Storage están altamente disponibles y replicados de forma global sin perder rendimiento.
  • Sobrecarga de administración sin almacenamiento: a diferencia de HDFS, Cloud Storage no requiere mantenimiento de rutina, como revisar el sistema de archivos, actualizarlo o revertirlo a una versión anterior del sistema de archivos, etcétera.
  • Inicio rápido: en HDFS, un trabajo MapReduce no puede iniciarse hasta que el NameNode se encuentre fuera del modo seguro, un proceso que puede demorar unos pocos segundos o varios minutos, según el tamaño y el estado de tus datos. Con Cloud Storage, puedes comenzar tu trabajo en cuanto se inicien los nodos de tareas, lo que genera importantes ahorros de costos a lo largo del tiempo.

Obtén el conector

Clústeres de Cloud Dataproc

El conector de Cloud Storage se instala de forma predeterminada en todos los nodos del clúster de Cloud Dataproc en /usr/lib/hadoop/lib/. Está disponible en entornos de Spark y PySpark.

Otros clústeres de Spark/Hadoop

Puedes descargar el conector de Cloud Storage para Hadoop 1.x o el conector de Cloud Storage para Hadoop 2.x. Consulta Instala el conector de Cloud Storage para instalar y configurar el conector.

Usa el conector

Hay varias formas de acceder a los datos almacenados en Cloud Storage:

Recursos

Versión de Java

El conector de Cloud Storage requiere Java 8.

Información sobre las dependencias de Apache Maven

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
    <scope>provided</scope>
</dependency>

Para obtener información más detallada, consulta las notas de la versión del conector de Cloud Storage y la referencia de Javadoc.

Pasos siguientes

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.