Cloud Dataproc

Una manera más rentable, fácil y rápida de ejecutar Apache Spark y Apache Hadoop

Pruébalo gratis

Apache Hadoop y Apache Spark nativos de la nube

Cloud Dataproc es un servicio de nube rápido, fácil de usar y completamente administrado para ejecutar clústeres de Apache Spark y Apache Hadoop de forma más simple y rentable. Las operaciones que solían tardar horas o días ahora tardan segundos o minutos y solo pagas por los recursos que usas (con facturación por segundo). Además, Cloud Dataproc se integra fácilmente a otros servicios de Google Cloud Platform (GCP), lo que te proporciona una plataforma completa y potente para el procesamiento de datos, el análisis y el aprendizaje automático.

Hadoop y Spark administrados

Procesamiento de datos rápido y escalable

Crea clústeres de Cloud Dataproc rápidamente y cambia su tamaño en cualquier momento (de tres a cientos de nodos). Así, no tendrás que preocuparte por si las canalizaciones de datos superan tus clústeres. Como las acciones de los clústeres tardan menos de 90 segundos en promedio, tendrás más tiempo para concentrarte en las estadísticas y perderás menos tiempo en la infraestructura.

Procesamiento de datos rápido y escalable

Precios asequibles

Con los mismos principios de determinación de precios de Google Cloud Platform, Cloud Dataproc ofrece costos bajos y una estructura de precios, que se basa en el uso real y se mide en segundos, fácil de entender. Además, los clústeres de Cloud Dataproc pueden incluir instancias no prioritarias de menor costo, lo que te permite tener clústeres potentes con un costo total aún más bajo.

Precios asequibles

Ecosistema de código abierto

El ecosistema de Spark y Hadoop ofrece herramientas, bibliotecas y documentación que puedes usar con Cloud Dataproc. Con las versiones de Spark, Hadoop, Pig y Hive nativas y actualizadas frecuentemente, puedes dar tus primeros pasos sin necesidad de aprender a usar herramientas o API nuevas y puedes mover los proyectos o canalizaciones de ETL existentes sin tener que repetir una etapa del desarrollo.

Ecosistema de código abierto

Características de Cloud Dataproc

Google Cloud Dataproc es un servicio administrado de Apache Spark y Apache Hadoop que es rápido, económico y fácil de usar.

Administración de clústeres automatizada
La implementación, los registros y la supervisión administrados te permiten concentrarte en tus datos en lugar del clúster. Tus clústeres serán estables, escalables y veloces.
Clústeres con tamaños ajustables
Los clústeres se pueden crear y escalar rápidamente, con una variedad de tipos de máquinas virtuales, tamaños de discos, cantidad de nodos y opciones de redes.
Integración
Gracias a la integración incorporada con Cloud Storage, BigQuery, Bigtable, Stackdriver Logging y Stackdriver Monitoring, tendrás una plataforma de datos sólida y completa.
Control de versiones
El control de versiones de imágenes te permite cambiar entre diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad
Ejecuta clústeres con varios nodos principales y configura los trabajos para que se reinicien ante fallas a fin de garantizar que tus clústeres y trabajos tengan una disponibilidad alta.
Herramientas para desarrolladores
Hay varias maneras de administrar un clúster, incluida una IU web fácil de usar, el SDK de Google Cloud, las API de RESTful y el acceso mediante el protocolo SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar las configuraciones y las bibliotecas que necesitas cuando se crea un clúster.
Configuración manual o automática
Cloud Dataproc configura el hardware y el software de los clústeres automáticamente y, al mismo tiempo, permite el control manual.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos de máquinas personalizados y máquinas virtuales no prioritarias para adaptarse perfectamente a tus necesidades.

Cloud Dataflow vs. Cloud Dataproc: ¿Cuál debería usar?

Tanto Cloud Dataproc como Cloud Dataflow pueden usarse para el procesamiento de datos, y sus capacidades de transmisión o por lotes están superpuestas. ¿Cómo decidir cuál producto se ajusta mejor a tu entorno?
Dataproc vs Dataflow

Cloud Dataproc

Cloud Dataproc es ideal para entornos que dependen de componentes específicos del ecosistema de macrodatos de Apache:

  • check Herramientas/paquetes
  • check Canalizaciones
  • check Conjunto de habilidades de los recursos existentes

Cloud Dataflow

Por lo general, Cloud Dataflow es la opción preferida para los entornos nuevos:

  • check Menos sobrecarga operativa
  • check Enfoque unificado para el desarrollo de canalizaciones por lotes o de transmisión
  • check Usa Apache Beam
  • check Admite la portabilidad de canalizaciones en Cloud Dataflow, Apache Spark y Apache Flink como tiempos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de transmisión (ETL) check
Procesamiento por lotes (ETL) check check
Procesamientos iterativos y cuadernos check
Aprendizaje automático con Spark ML check
Procesamiento previo para aprendizaje automático check (con Cloud ML Engine)

Precios de Cloud Dataproc

Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster1.

Iowa Oregón Virginia del Norte Carolina del Sur Montreal São Paulo Bélgica Londres Países Bajos Fráncfort Sídney Bombay Taiwán Tokio
Tipo de máquina Precio
Máquinas estándar
De 1 a 64 CPU virtuales
Máquinas con alta capacidad de memoria
De 2 a 64 CPU virtuales
Máquinas con alta capacidad de CPU
De 2 a 64 CPU virtuales
Máquinas personalizadas
Según tu uso de CPU virtuales y memoria
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en las SKU de Cloud Platform.

1 Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster mientras este funciona. Los recursos adicionales que usa Cloud Dataproc, como una red de Compute Engine, BigQuery, Cloud Bigtable, entre otros, se cobran por consumo. Para obtener información detallada sobre los precios, consulta la guía de precios.