Se usó la API de Cloud Translation para traducir esta página.

Descripción general de Dataproc

Dataproc es un servicio administrado de Spark y Hadoop con el que puedes aprovechar las herramientas de código abierto para procesar, consultar y transmitir datos por lote, además de herramientas de aprendizaje automático. Con la automatización de Dataproc, podrá crear clústeres rápidamente, administrarlos con facilidad y ahorrar dinero desactivándolos cuando no los necesite. Con un gasto menor de tiempo y dinero en administración, puedes enfocarte en tus trabajos y datos.

Ventajas de Dataproc

Cuando se lo compara con productos tradicionales, locales y servicios en la nube de la competencia, Dataproc tiene varias ventajas únicas para clústeres de tres a cientos de nodos:

Costo bajo: Dataproc tiene un precio de solo 1 centavo por CPU virtual en tu clúster por hora, además de los otros recursos de Cloud Platform que uses. Además de este costo bajo, los clústeres de Dataproc pueden incluir instancias interrumpibles que tienen costos de procesamiento más bajos, lo que reduce aún más tus costos. En vez de redondear tu uso hacia arriba a la hora más cercana, Dataproc te cobra solo por lo que en realidad usas con la facturación segundo a segundo y un período de facturación bajo, de un mínimo de un minuto.
Muy rápido: si no se usa Dataproc, puede tardar de cinco a 30 minutos crear clústeres locales de Spark y Hadoop o a través de los proveedores de IaaS. En comparación, los clústeres de Dataproc se inician, escalan y cierran rápido; cada una de estas operaciones tarda 90 segundos o menos en promedio. Esto significa que deberás esperar menos tiempo a los clústeres y podrás dedicar más tiempo práctico a trabajar con tus datos.
Integrado: Dataproc tiene integración incorporada con otros servicios de Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging y Cloud Monitoring, por lo que tienes más que un clúster de Spark o Hadoop: tienes una plataforma de datos completa. Por ejemplo, puedes usar Dataproc para ETL terabytes de datos de registro sin procesar de manera directa y sin esfuerzo en BigQuery para informes de negocios.
Administrado: usa los clústeres de Spark y Hadoop sin la asistencia de un administrador o un software especial. Puedes interactuar con facilidad entre clústeres y trabajos de Spark o Hadoop a través de la consola de Google Cloud , el SDK de Cloud o la API de REST de Dataproc. Cuando terminas de usar un clúster, puedes apagarlo para que no gastes dinero en un clúster inactivo. No tendrás que preocuparte por perder datos, ya que Dataproc está integrado a Cloud Storage, BigQuery y Cloud Bigtable.
Simple y conocido: no necesitas aprender a usar herramientas o APIs nuevas para usar Dataproc, lo que facilita el traslado de proyectos existentes a Dataproc sin volver a desarrollarlos. Spark, Hadoop, Pig y Hive se actualizan con frecuencia, por lo que puedes ejecutar tus tareas con rapidez.

Qué incluye Dataproc

Para obtener una lista de las versiones de conectores de código abierto (Hadoop, Spark, Hive y Pig) y Google Cloud compatibles con Dataproc, consulta la lista de versiones de Dataproc.

Comienza a usar Dataproc

Para comenzar a usar Dataproc rápidamente, consulta las guías de inicio rápido de Dataproc. Puedes acceder a Dataproc de las siguientes maneras:

A través de la API de REST
Con el SDK de Cloud
Con la IU de Dataproc
A través de las bibliotecas cliente de Cloud