Cloud Dataproc

Una manera más rentable, fácil y rápida de ejecutar Apache Spark y Apache Hadoop

Pruébalo gratis

Apache Hadoop y Apache Spark nativos de la nube

Cloud Dataproc es un servicio de nube rápido, fácil de usar y completamente administrado para ejecutar clústeres de Apache Spark y Apache Hadoop de forma más simple y económica. Las operaciones que solían tardar horas o días ahora llevan segundos o minutos, y solo pagas por los recursos que usas (con facturación por segundo). Además, Cloud Dataproc se integra fácilmente con otros servicios de Google Cloud Platform (GCP), de modo que cuentas con una plataforma completa y potente para el procesamiento de datos, el análisis y el aprendizaje automático.

Hadoop y Spark administrados

Procesamiento de datos rápido y escalable

Crea clústeres de Cloud Dataproc rápidamente y cambia su tamaño en cualquier momento (de tres a cientos de nodos). Así, la posibilidad de que las canalizaciones de datos superen la capacidad de los clústeres ya no será una preocupación. Como las acciones de los clústeres tardan menos de 90 segundos en promedio, tendrás más tiempo para concentrarte en las estadísticas y perderás menos tiempo en la infraestructura.

Procesamiento de datos rápido y escalable

Precios accesibles

Con los mismos principios de determinación de precios de Google Cloud Platform, Cloud Dataproc ofrece costos bajos y una estructura de precios, que se basa en el uso real y se mide en segundos, fácil de entender. Además, los clústeres de Cloud Dataproc pueden incluir instancias interrumpibles de menor costo, lo que te permite tener clústeres potentes con un costo total aún más bajo.

Precios accesibles

Ecosistema de código abierto

El ecosistema de Spark y Hadoop ofrece herramientas, bibliotecas y documentación que puedes usar con Cloud Dataproc. Con las versiones de Spark, Hadoop, Pig y Hive nativas y actualizadas frecuentemente, puedes dar tus primeros pasos sin necesidad de aprender a usar herramientas o API nuevas, y mover los proyectos o canalizaciones de ETL existentes sin que se requieran nuevos desarrollos.

Ecosistema de código abierto

Características de Cloud Dataproc

Google Cloud Dataproc es un servicio administrado de Apache Spark y Apache Hadoop que es rápido, económico y fácil de usar

Administración automatizada de clústeres
La implementación, los registros y la supervisión administrados te permiten concentrarte en los datos y desentenderte del clúster. Tus clústeres serán estables, escalables y veloces.
Clústeres con tamaños ajustables
Los clústeres se pueden crear y escalar rápidamente, con una variedad de tipos de máquinas virtuales, tamaños de discos, cantidad de nodos y opciones de redes.
Integración
Gracias a la integración incorporada con Cloud Storage, BigQuery, Bigtable, Stackdriver Logging y Stackdriver Monitoring, tendrás una plataforma de datos sólida y completa.
Control de versiones
El control de versiones de imágenes te permite trabajar con diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad
Ejecuta clústeres con varios nodos principales y configura los trabajos para que se reinicien ante fallas a fin de garantizar que tus clústeres y trabajos tengan una disponibilidad alta.
Herramientas para desarrolladores
Hay varias maneras de administrar un clúster, que incluyen el empleo de una IU web fácil de usar, el SDK de Google Cloud, las API RESTful y el acceso mediante el protocolo SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar las opciones de configuración y las bibliotecas que necesitas cuando se crea un clúster.
Configuración manual o automática
Cloud Dataproc configura el hardware y el software de los clústeres automáticamente, pero también permite el control manual.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para adaptarse perfectamente a tus necesidades.

Cloud Dataflow y Cloud Dataproc: ¿Cuál deberías usar?

Tanto Cloud Dataproc como Cloud Dataflow pueden usarse para el procesamiento de datos, y existe cierta superposición entre las capacidades de transmisión y por lotes. ¿Cómo decidir qué producto se ajusta mejor a tu entorno?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc es ideal para entornos que dependen de componentes específicos del ecosistema de macrodatos de Apache:

  •  Herramientas/paquetes
  •  Canalizaciones
  •  Conjuntos de habilidades asociados a recursos existentes

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos nuevos:

  •  Menor sobrecarga operativa
  •  Enfoque unificado para el desarrollo de canalizaciones por lotes o de transmisión
  •  Usa Apache Beam
  •  Compatibilidad con portabilidad de canalizaciones entre Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de transmisión (ETL)
Procesamiento por lotes (ETL)
Procesamiento iterativo y notebooks
Aprendizaje automático con Spark ML
Procesamiento previo para aprendizaje automático (con Cloud ML Engine)

Precios de Cloud Dataproc

Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster1.

Iowa (us-central1) Oregón (us-west1) Virginia del Norte (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Londres (europe-west2) Países Bajos (europe-west4) Zúrich (europe-west6) Fráncfort (europe-west3) Sídney (australia-southeast1) Bombay (asia-south1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1)
Tipo de máquina Precio
Máquinas estándar
De 1 a 64 CPU virtuales
Máquinas con alta capacidad de memoria
De 2 a 64 CPU virtuales
Máquinas con alta capacidad de CPU
De 2 a 64 CPU virtuales
Máquinas personalizadas
Según tu uso de CPU virtuales y memoria
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

1 Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster mientras este funciona. Los recursos adicionales que usa Cloud Dataproc, como una red de Compute Engine, BigQuery, Cloud Bigtable, entre otros, se cobran por consumo. Para obtener información detallada sobre los precios, consulta la guía de precios.

Enviar comentarios sobre…