El conector de Cloud Storage es una biblioteca Java de código abierto que te permite ejecutar trabajos de Apache Hadoop o Apache Spark directamente en los datos en Cloud Storage y ofrece una serie de beneficios sobre el sistema de archivos distribuidos de Hadoop (HDFS).
Beneficios del conector de Cloud Storage
- Acceso directo a datos: almacena tus datos en Cloud Storage y accede a ellos directamente. No es necesario que la transfiera a HDFS primero.
- Compatibilidad con HDFS: Puedes acceder fácilmente a tus datos en Cloud Storage con el prefijo
gs://
en lugar dehdfs://
. - Interoperabilidad: El almacenamiento de datos en Cloud Storage permite una interoperabilidad perfecta entre los servicios de Spark, Hadoop y Google.
- Accesibilidad a los datos: Cuando cierras un clúster de Hadoop, a diferencia de HDFS, seguirás teniendo acceso a tus datos en Cloud Storage.
- Alta disponibilidad de los datos: Los datos almacenados en Cloud Storage están altamente disponibles y replicados de forma global sin perder rendimiento.
- Sobrecarga de administración sin almacenamiento: a diferencia de HDFS, Cloud Storage no requiere mantenimiento de rutina, como revisar el sistema de archivos, o actualizar o revertir a una versión anterior del sistema de archivos.
- Inicio rápido: En HDFS, un trabajo MapReduce no puede iniciarse hasta que el
NameNode
se encuentre fuera del modo seguro, un proceso que puede demorar unos pocos segundos o varios minutos, según el tamaño y el estado de tus datos. Con Cloud Storage, puedes comenzar tu trabajo en cuanto se inicien los nodos de tareas, lo que genera importantes ahorros de costos a lo largo del tiempo.
Obtén el conector
Clústeres de Dataproc
El conector de Cloud Storage se instala de forma predeterminada en todos los nodos del clúster de Dataproc en /usr/lib/hadoop/lib/
. Nota: Para las versiones de imagen 1.4 y posteriores, la ubicación es /usr/local/share/google/dataproc/lib/
. Está disponible en entornos de Spark y PySpark.
Otros clústeres de Spark/Hadoop
Para descargar el conector de Cloud Storage para Hadoop, haz lo siguiente:
- Última versión del depósito de Cloud Storage:
- versión específica del depósito de Cloud Storage mediante la sustitución de las versiones del conector de Hadoop y Cloud Storage en el patrón de nombre
gcs-connector-HADOOP_VERSION-CONNECTOR_VERSION.jar
:gs://hadoop-lib/gcs/gcs-connector-hadoop2-2.1.1.jar
- versión específica del repositorio Apache Maven (debes descargar un jar oculto que tenga el sufijo
-shaded
en el nombre):
Consulta Instala el conector de Cloud Storage para instalar y configurar el conector.
Usa el conector
Hay varias formas de acceder a los datos almacenados en Cloud Storage:
- En una aplicación Spark (o PySpark) o Hadoop con el prefijo
gs://
. - La shell de Hadoop:
hadoop fs -ls gs://bucket/dir/file
. - El navegador Cloud Storage de Cloud Console.
- Usa los comandos
gsutil cp
ogsutil rsync
.
Recursos
Versión de Java
El conector de Cloud Storage requiere Java 8.
Información sobre las dependencias de Apache Maven
<dependency> <groupId>com.google.cloud.bigdataoss</groupId> <artifactId>gcs-connector</artifactId> <version>insert "hadoopX-X.X.X" connector version number here</version> <scope>provided</scope> </dependency>
Para obtener información más detallada, consulta las notas de la versión del conector de Cloud Storage y la referencia de Javadoc.
Qué sigue
- Obtén más información sobre Cloud Storage