Cloud Dataproc

Un servicio administrado de Spark y Hadoop que es rápido, fácil de usar y económico

Pruébalo gratis

Hadoop y Spark administrados

Usa Google Cloud Dataproc, un servicio de Apache Hadoop, Apache Spark, Apache Pig y Apache Hive, para procesar fácilmente grandes conjuntos de datos a bajo costo. Crea rápidamente clústeres administrados, de cualquier tamaño y apágalos cuando hayas terminado para controlar los costos. Cloud Dataproc se integra en los productos de Google Cloud Platform y te brinda una plataforma de procesamiento de datos potente y completa.

Hadoop y Spark administrados

Procesamiento de datos rápido y escalable

Crea clústeres de Cloud Dataproc rápidamente y cambia su tamaño en cualquier momento (de tres a cientos de nodos). Así, no tendrás que preocuparte por si las canalizaciones de datos superan tus clústeres. Como las acciones de los clústeres tardan menos de 90 segundos en promedio, tendrás más tiempo para concentrarte en las estadísticas y perderás menos tiempo en la infraestructura.

Procesamiento de datos rápido y escalable

Precios asequibles

Con los mismos principios de determinación de precios de Google Cloud Platform, Cloud Dataproc ofrece costos bajos y es fácil entender la estructura de precios, que se basa en el uso real y se mide en minutos. Además, los clústeres de Cloud Dataproc pueden incluir instancias prioritarias de menor costo, lo que te permite tener clústeres potentes con un costo total aún más bajo.

Precios asequibles

Ecosistema de código abierto

El ecosistema de Spark y Hadoop ofrece herramientas, bibliotecas y documentación que puedes usar con Cloud Dataproc. Con las versiones de Spark, Hadoop, Pig y Hive nativas y actualizadas frecuentemente, puedes dar tus primeros pasos sin necesidad de aprender a usar herramientas o API nuevas y puedes mover los proyectos o canalizaciones de ETL existentes sin tener que repetir una etapa del desarrollo.

Ecosistema de código abierto

¿Otras opciones?

Cloud Platform ofrece un procesamiento de datos clave y casos de análisis con mayor escala, eficacia y simplicidad. Si usas Hive en Hadoop (o SparkSQL), quizás deberías tener en cuenta la opción de Google BigQuery, un servicio de análisis de SQL según demanda con un rendimiento asombroso. Si programas canalizaciones de transformación de datos con Spark o MapReduce, quizás deberías tener en cuenta la opción de Google Cloud Dataflow, un servicio completamente administrado que elimina el trabajo pesado necesario en otras herramientas y ejecuta una amplia variedad de patrones de procesamiento de datos, incluidos los procesos de ETL, por lotes y de transmisión.

Google Cloud Dataflow

Características de Cloud Dataproc

Google Cloud Dataproc es un servicio administrado de Spark y Hadoop que es rápido, fácil de usar y económico.

Administración de clústeres automatizada
La implementación, los registros y la supervisión administrados te permiten concentrarte en tus datos en lugar del clúster. Tus clústeres serán estables, escalables y veloces.
Clústeres con tamaños ajustables
Los clústeres se pueden crear y escalar rápidamente, con una variedad de tipos de máquinas virtuales, tamaños de discos, cantidad de nodos y opciones de redes.
Integración
Gracias a la integración incorporada con Cloud Storage, BigQuery, Bigtable, Stackdriver Logging y Stackdriver Monitoring, tendrás una plataforma de datos sólida y completa.
Control de versiones
El control de versiones de imágenes te permite cambiar entre diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Herramientas para programadores
Hay varias maneras de administrar un clúster, incluida una IU web fácil de usar, el SDK de Google Cloud, las API de RESTful y el acceso mediante el protocolo SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar las configuraciones y las bibliotecas que necesitas cuando se crea un clúster.
Configuración manual o automática
Cloud Dataproc configura el hardware y el software de los clústeres automáticamente y, al mismo tiempo, permite el control manual.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos de máquinas personalizados y máquinas virtuales prioritarias, por lo que se adaptan perfectamente a tus necesidades.

Precios de Cloud Dataproc

Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster1.

Iowa Oregón Virginia del Norte Carolina del Sur Bélgica Londres Sídney Taiwán Tokio
Tipo de máquina Precio
Máquinas estándar
De 1 a 64 CPU virtuales
Máquinas con alta capacidad de memoria
De 2 a 64 CPU virtuales
Máquinas con alta capacidad de CPU
De 2 a 64 CPU virtuales
Máquinas personalizadas
Según tu uso de CPU virtuales y memoria

1 Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster mientras este funciona. Los recursos adicionales que usa Cloud Dataproc, como una red de Compute Engine, BigQuery, Cloud Bigtable, entre otros, se cobran por consumo. Para obtener información detallada sobre los precios, consulta la guía de precios.

Supervisa tus recursos estés donde estés

Obtén la app de Google Cloud Console para ayudarte a administrar tus proyectos.