Cloud Dataproc

Servicio Spark y Hadoop administrado, rápido, fácil de usar y de bajo coste

Pruébalo gratis

Hadoop y Spark administrados

Google Cloud Dataproc es un servicio de Apache Hadoop, Apache Spark, Apache Pig y Apache Hive para procesar sin esfuerzo grandes conjuntos de datos a bajo coste. Puedes crear clústeres administrados de cualquier tamaño y desactivarlos cuando acabes para controlar los costes. Cloud Dataproc se integra en todos los productos de Google Cloud Platform y ofrece una plataforma de procesamiento de datos potente y completa.

Hadoop y Spark administrado

Procesamiento de datos rápido y escalable

Puedes crear rápidamente clústeres de Cloud Dataproc y cambiar su tamaño en cualquier momento (desde tres nodos a cientos de ellos). Así te despreocupas de que las canalizaciones de tus datos sobrepasen los clústeres. Como cada acción de clúster tarda menos de 90 segundos de media, dispones de más tiempo para centrarte en la información valiosa y pierdes menos tiempo supervisando la infraestructura.

Procesamiento de datos rápido y escalable

Precios para todos los bolsillos

Cloud Dataproc ha adoptado los principios de Google Cloud Platform, por lo que se beneficia de una estructura de precios de bajo coste muy fácil de entender basada en el uso real (medido por minuto). Además, los clústeres de Cloud Dataproc pueden incluir instancias priorizables con un coste menor, lo que significa que dispones de clústeres muy potentes por un precio total incluso más bajo.

Precios para todos los bolsillos

Ecosistema de código abierto

El ecosistema de Spark y Hadoop proporciona herramientas, bibliotecas y documentación que puedes aprovechar con Cloud Dataproc. Como ofrece versiones actualizadas y nativas de Spark, Hadoop, Pig y Hive, no tienes que aprender herramientas ni API nuevas. Además, puedes mover proyectos o canalizaciones ETL sin necesidad de volver a desarrollarlas.

Ecosistema de código abierto

¿Te has planteado lo siguiente?

Cloud Platform analiza y procesa datos clave con mayor escala, eficiencia y simplicidad. Si usas Hive en Hadoop (o SparkSQL), te recomendamos Google BigQuery, un servicio de análisis de SQL según demanda con un gran rendimiento. Si programas canalizaciones de transformación de datos con Spark o MapReduce, entonces te aconsejamos Google Cloud Dataflow, un servicio totalmente administrado que elimina el trabajo que requieren otras herramientas y que ejecuta una gran variedad de patrones de procesamiento de datos, como el ETL y las operaciones informáticas, tanto continuas como por lotes.

Google Cloud Dataflow

Características de Cloud Dataproc

Google Cloud Dataproc es un servicio Spark y Hadoop administrado, rápido, fácil de usar y de bajo coste.

Administración automática de clústeres
Como el despliegue, el registro y la supervisión están administrados, puedes centrarte en los datos, ya que los clústeres serán estables, escalables y rápidos.
Clústeres de tamaño ajustable
Es posible crear y escalar clústeres rápidamente con varios tipos de máquinas virtuales, tamaños de disco, número de nodos y opciones de red.
Integrado
Está integrado en Cloud Storage, BigQuery, Bigtable, Stackdriver Logging y Stackdriver Monitoring, lo que significa que disfrutarás de una plataforma de datos completa y sólida.
Control de versiones
El control de versiones de imágenes te permite cambiar entre varias versiones de Apache Spark, Apache Hadoop y otras herramientas.
Herramientas para desarrolladores
Dispones de diferentes maneras de administrar un clúster, entre ellas una IU web fácil de usar, el SDK de Google Cloud, las API RESTful y el acceso SSH.
Acciones de inicialización
Puedes ejecutar acciones de inicialización para instalar o personalizar la configuración y las bibliotecas necesarias al crear un clúster.
Configuración manual o automática
Cloud Dataproc configura automáticamente el hardware y el software de los clústeres mientras sigue permitiendo el control manual.
Máquinas virtuales flexibles
Los clústeres usan los tipos de máquinas personalizados y las máquinas virtuales no garantizadas para que su tamaño siempre se adapte a tus necesidades.

Precios de Cloud Dataproc

Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que utilice tu clúster1.

Iowa Oregón Virginia del Norte Carolina del Sur Bélgica Londres Sídney Taiwán Tokio
Tipo de ordenador Precio
Máquinas estándar
1-64 CPU virtuales
Máquinas de memoria elevada
2-64 CPU virtuales
Máquinas con un gran número de CPUs
2-64 CPU virtuales
Máquinas personalizadas
Basadas en el uso de vCPU y de memoria

1 Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que tu clúster utilice mientras esté operativo. Los recursos adicionales que use Cloud Dataproc, entre ellos la red de Compute Engine, BigQuery y Cloud Bigtable, se facturan a medida que se consumen. Consulta la guía de precios para obtener información más detallada.

Supervisa tus recursos estés donde estés

Descarga la aplicación Google Cloud Console para administrar tus proyectos.