Descargas de Cloud Dataproc

Estas utilidades y bibliotecas se simplifican con Apache Spark, Apache Hadoop y Cloud Dataproc en Google Cloud Platform.

Clústeres de Cloud Dataproc

SDK de Cloud

El SDK de Cloud contiene herramientas y bibliotecas que te permiten crear y administrar recursos con facilidad en Google Cloud Platform. El SDK de Cloud te facilita la creación y administración de clústeres de Cloud Dataproc en Cloud Platform.

Otros clústeres de Spark y Hadoop

Estas herramientas también son útiles para los clústeres de Spark y Hadoop que no se ejecutan en Cloud Dataproc, como un clúster autoadministrado que se ejecuta en Compute Engine.

Conectores de Google

Con los conectores de Google, puedes usar los servicios de Google Cloud Platform, como Cloud Storage, en tus clústeres de Spark y Hadoop.

Puedes instalar estos conectores de forma manual en clústeres autoadministrados nuevos o existentes. Tus clústeres pueden usar estos conectores incluso si no se ejecutan en Google Cloud Platform. Por ejemplo, puedes usar el conector de Cloud Storage con un clúster que se ejecute de forma local o en otra nube.

  • Conector de Cloud Storage: el conector de Cloud Storage te permite ejecutar trabajos de Hadoop o Spark directamente en los datos en Cloud Storage. Además, ofrece ventajas respecto de elegir el Sistema de archivos distribuidos de Hadoop (HDFS) como el sistema de archivos predeterminado.

  • Conector de BigQuery: puedes usar un conector de BigQuery para habilitar el acceso de lectura o escritura programático a BigQuery. Esto es ideal para procesar datos que ya almacenaste en BigQuery.

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Documentación de Cloud Dataproc
Si necesitas ayuda, visita nuestra página de asistencia.