Se usó la API de Cloud Translation para traducir esta página.

Descripción general de Dataproc

Dataproc es un servicio administrado de Spark y Hadoop con el que puedes aprovechar herramientas de datos de código abierto para procesamiento por lotes, consultas, transmisiones y aprendizaje automático. Con la automatización de Dataproc, podrá crear clústeres rápidamente, administrarlos con facilidad y ahorrar dinero desactivándolos cuando no los necesite. Con un gasto menor de tiempo y dinero en administración, puedes enfocarte en tus trabajos y datos.

¿Por qué usar Dataproc?

Cuando se lo compara con productos tradicionales, locales y servicios en la nube de la competencia, Dataproc tiene varias ventajas únicas para clústeres de tres a cientos de nodos:

Costo bajo: Dataproc tiene un precio de solo 1 centavo por CPU virtual en tu clúster por hora, además de los otros recursos de Cloud Platform que uses. Además de este costo bajo, los clústeres de Dataproc pueden incluir instancias interrumpibles que tienen costos de procesamiento más bajos, lo que reduce aún más tus costos. En vez de redondear tu uso hacia arriba a la hora más cercana, Dataproc te cobra solo por lo que en realidad usas con la facturación segundo a segundo y un período de facturación bajo, de un mínimo de un minuto.
Muy rápido: si no se usa Dataproc, puede tardar de cinco a 30 minutos crear clústeres locales de Spark y Hadoop o a través de los proveedores de IaaS. En comparación, los clústeres de Dataproc se inician, escalan y cierran rápido; cada una de estas operaciones tarda 90 segundos o menos en promedio. Esto significa que deberás esperar menos tiempo a los clústeres y podrás dedicar más tiempo práctico a trabajar con tus datos.
Integrado: Dataproc tiene integración incorporada con otros servicios de Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging y Cloud Monitoring, por lo que tienes más que un clúster de Spark o Hadoop: tienes una plataforma de datos completa. Por ejemplo, puedes usar Dataproc para ETL terabytes de datos de registro sin procesar de manera directa y sin esfuerzo en BigQuery para informes de negocios.
Administrado: usa los clústeres de Spark y Hadoop sin la asistencia de un administrador o un software especial. Puedes interactuar fácilmente con los clústeres y los trabajos de Spark o Hadoop a través de la consola de Google Cloud, el SDK de Cloud o la API de REST de Dataproc. Cuando terminas de usar un clúster, puedes apagarlo para que no gastes dinero en un clúster inactivo. No tendrás que preocuparte por la pérdida de datos, ya que Dataproc está integrado a Cloud Storage,BigQuery y Cloud Bigtable.
Simple y conocido: no necesitas aprender a usar herramientas o API nuevas para usar Dataproc, lo que facilita el traslado de proyectos existentes a Dataproc sin volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes ejecutar tus tareas con rapidez.

¿Qué se incluye en Dataproc?

Para obtener una lista de las versiones de conector de código abierto (Hadoop, Spark, Hive y Pig) y de las versiones de conector de Google Cloud Platform compatibles con Dataproc, consulta la lista de versiones de Dataproc.

Comienza a usar Dataproc

Para comenzar a usar Dataproc rápidamente, consulta las Guías de inicio rápido de Dataproc. Puedes acceder a Dataproc de las siguientes maneras:

A través de la API de REST
Con el SDK de Cloud
Con la IU de Dataproc
A través de las bibliotecas cliente de Cloud