Dataproc es un servicio de Spark y Hadoop gestionado que te permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, el streaming y el aprendizaje automático. La automatización de Dataproc te ayuda a crear clústeres rápidamente, gestionarlos fácilmente y ahorrar dinero desactivándolos cuando no los necesites. Al dedicar menos tiempo y dinero a la administración, puedes centrarte en tus trabajos y tus datos.
Ventajas de Dataproc
En comparación con los productos locales tradicionales y los servicios en la nube de la competencia, Dataproc ofrece una serie de ventajas únicas para clústeres de entre tres y cientos de nodos:
- Bajo coste: Dataproc tiene un precio de solo 1 céntimo por CPU virtual de tu clúster y hora, además de los otros recursos de Cloud Platform que utilices. Además de este precio bajo, los clústeres de Dataproc pueden incluir instancias no garantizadas que tienen precios de computación más bajos, lo que reduce aún más los costes. En lugar de redondear el uso a la hora más cercana, Dataproc solo te cobra por lo que realmente usas con una facturación por segundos y un periodo de facturación mínimo de un minuto.
- Superrápido: sin usar Dataproc, se pueden tardar entre cinco y 30 minutos en crear clústeres de Spark y Hadoop de forma local o a través de proveedores de IaaS. En comparación, los clústeres de Dataproc se inician, escalan y cierran rápidamente, y cada una de estas operaciones tarda 90 segundos o menos de media. De esta forma, puedes dedicar menos tiempo a esperar los clústeres y más a trabajar directamente con tus datos.
- Integrado: Dataproc tiene una integración de serie con otros servicios de Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging y Cloud Monitoring. De esta forma, no solo tienes un clúster de Spark o Hadoop, sino una plataforma de datos completa. Por ejemplo, puedes usar Dataproc para extraer, transformar y cargar sin esfuerzo terabytes de datos de registro sin procesar directamente en BigQuery para generar informes empresariales.
- Gestionado: usa clústeres de Spark y Hadoop sin la ayuda de un administrador ni software especial. Puedes interactuar fácilmente con clústeres y tareas de Spark o Hadoop a través de la Google Cloud consola, el SDK de Cloud o la API REST de Dataproc. Cuando termines de usar un clúster, puedes desactivarlo para no gastar dinero en un clúster inactivo. No tendrás que preocuparte por perder datos, ya que Dataproc está integrado con Cloud Storage, BigQuery y Cloud Bigtable.
- Sencillo y familiar: no tienes que aprender a usar herramientas ni APIs nuevas para usar Dataproc, por lo que es fácil mover proyectos a Dataproc sin necesidad de volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes aumentar tu productividad más rápido.
Qué se incluye en Dataproc
Para ver una lista de las versiones de código abierto (Hadoop, Spark, Hive y Pig) y de conectores compatibles con Dataproc, consulta la lista de versiones de Dataproc. Google Cloud
Primeros pasos con Dataproc
Para empezar a usar Dataproc rápidamente, consulta las guías de inicio rápido de Dataproc. Puede acceder a Dataproc de las siguientes formas:
- A través de la API REST
- Usar el SDK de Google Cloud
- Con la interfaz de usuario de Dataproc
- A través de las bibliotecas de cliente de Cloud