Cómo instalar el conector de Cloud Storage

Puedes instalar y usar el Conector de Cloud Storage en un clúster de Apache Hadoop/Spark, por ejemplo, para mover datos HDFS locales a Cloud Storage. Ten en cuenta que puedes instalar el conector en un clúster independiente de Spark, pero necesitarás configurar el archivo de configuración como se señaló en el paso de instalación 3.

Pasos para instalar el conector

  1. Descarga el Conector de Cloud Storage

    Hadoop 1.x

    1. Descarga el conector de Cloud Storage para Hadoop 1.x.
    2. Copia el archivo jar a tu directorio hadoop/lib (consulta siguiente ejemplo de comandos para el modo independiente de Spark).
      cp ~/Downloads/gcs-connector-hadoop1-latest.jar /your/hadoop/dir/lib/
      Cuando ejecutas un clúster independiente de Spark:
      cp ~/Downloads/gcs-connector-hadoop1-latest.jar $SPARK_HOME/jars directory

    Hadoop 2.x

    1. Descarga el conector de Cloud Storage para Hadoop 2.x.
    2. Copia el archivo jar a tu $HADOOP_COMMON_LIB_JARS_DIR (consulta siguiente ejemplo de comandos para el modo independiente de Spark).
      cp ~/Downloads/gcs-connector-hadoop2-latest.jar $HADOOP_COMMON_LIB_JARS_DIR.
      Cuando ejecutas un clúster independiente de Spark:
      cp ~/Downloads/gcs-connector-hadoop2-latest.jar $SPARK_HOME/jars directory

  2. Configura la autenticación del "archivo clave" de la cuenta de servicio.

    1. Asegúrate de haber habilitado la API de Compute Engine en tu proyecto.
    2. Visita Google Cloud Platform Console→API y servicios→Credenciales y selecciona Create Credentials (Crear credenciales)→service account key (clave de cuenta de servicio).
    3. Selecciona Service account→Compute Engine default service account (Cuenta de servicio→Cuenta de servicio predeterminada de Compute Engine) y Key type→JSON (Tipo de clave→JSON); luego haz clic en Create (Crear) para descargar la clave.
    4. Haz un seguimiento del archivo .json descargado. Es posible que quieras renombrarlo antes de colocarlo en un directorio al que se puede acceder más fácilmente desde Hadoop. Por ejemplo:
      cp ~/Downloads/project-id-xxxxxxx.json /path/to/hadoop/conf/gcskey.json
      
  3. Agrega las siguientes entradas al archivo conf/core-site.xml en cada nodo del clúster (VM principales y de trabajador):

    Required entries:
    <property>
    <name>google.cloud.auth.service.account.enable</name>
    <value>true</value>
    </property>
    <property>
    <name>google.cloud.auth.service.account.json.keyfile</name>
    <value>full path to JSON keyfile downloaded for service account</value>
    </property>
    

Cómo probar la instalación

Con la configuración anterior en tus nodos principal y trabajador, deberías estar listo para probar el conector de Cloud Storage si ejecutas:

hadoop fs -ls gs://bucket-name

Solución de problemas

El resultado del siguiente comando puede revelar mensajes de error informativos que pueden ayudarte a depurar los problemas de conexión a Cloud Storage.

gsutil ls gs://bucket-name
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de Cloud Dataproc
¿Necesitas ayuda? Visita nuestra página de asistencia.