¿Qué es Google Cloud Dataproc?

Cloud Dataproc es un servicio Spark y Hadoop administrado con el que puedes aprovechar las herramientas de código abierto para procesar, consultar y transmitir datos por lote junto con herramientas de aprendizaje automático. Con la automatización de Cloud Dataproc, podrás crear y administrar clústeres con facilidad y ahorrar dinero si apagas los clústeres cuando no los necesitas. Con un gasto menor de tiempo y dinero en administración, puedes enfocarte en tus trabajos y tus datos.

¿Por qué debería usar Cloud Dataproc?

Cuando se lo compara con productos tradicionales, locales y servicios en la nube de la competencia, Cloud Dataproc tiene varias ventajas únicas para clústeres de tres a cientos de nodos:

  • Costo bajo: Cloud Dataproc tiene un precio de solo 1 centavo por CPU virtual en tu clúster por hora, además de los otros recursos de Cloud Platform que uses. Además de este costo bajo, los clústeres de Cloud Dataproc pueden incluir instancias interrumpibles que tienen costos de procesamiento más bajos, lo que reduce aún más tus costos. En vez de redondear tu uso hacia arriba a la hora más cercana, Cloud Dataproc te cobra solo por lo que en realidad usas con la facturación segundo a segundo y un período de facturación bajo, de un mínimo de un minuto.
  • Muy rápido: si no se usa Cloud Dataproc, puede tardar de cinco a 30 minutos crear clústeres locales de Spark y Hadoop o a través de los proveedores de IaaS. En comparación, los clústeres de Cloud Dataproc se inician, escalan y cierran rápido; cada una de estas operaciones tarda 90 segundos o menos en promedio. Esto significa que deberás esperar menos tiempo a los clústeres y podrás dedicar más tiempo práctico a trabajar con tus datos.
  • Integrado: Cloud Dataproc tiene incorporada la integración con otros servicios de Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Stackdriver Logging y Stackdriver Monitoring, así que tienes más que un clúster de Spark o Hadoop; tienes una plataforma de datos completa. Por ejemplo, puedes usar Cloud Dataproc a fin de ETL terabytes sin esfuerzo de datos de registro sin procesar de manera directa en BigQuery para informes de negocios.
  • Administrado: usa los clústeres de Spark y Hadoop sin la asistencia de un administrador o un software especial. Puedes interactuar con facilidad entre clústeres y trabajos de Spark o Hadoop a través de Google Cloud Platform Console, el SDK de Google Cloud o las API de REST de Cloud Dataproc. Cuando terminas de usar un clúster, puedes apagarlo, así no gastas dinero en un clúster inactivo. No tienes que preocuparte por perder datos porque Cloud Dataproc está integrado en Cloud Storage, BigQuery y Cloud Bigtable.
  • Simple y conocido: no necesitas aprender a usar herramientas nuevas o API para usar Cloud Dataproc, lo que facilita el traslado de proyectos existentes a Cloud Dataproc sin volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes ejecutar tus tareas con rapidez.

¿Qué incluye Cloud Dataproc?

Para obtener una lista de las versiones de conector de código abierto (Hadoop, Spark, Hive y Pig) y de las versiones de conector de Google Cloud Platform compatibles con Cloud Dataproc, consulta la lista de versiones de Cloud Dataproc.

Comienza a usar Cloud Dataproc

Para comenzar a usar Cloud Dataproc con rapidez, consulta las Guías de inicio rápido de Cloud Dataproc. Puedes acceder a Cloud Dataproc de las maneras siguientes:

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación de Cloud Dataproc
¿Necesitas ayuda? Visita nuestra página de asistencia.