Cloud Dataproc

Método rápido, fácil y rentable de ejecutar Apache Spark y Apache Hadoop

Pruébalo gratis

Apache Hadoop y Apache Spark nativos en la nube

Cloud Dataproc es un servicio en la nube rápido, fácil de usar y totalmente administrado para ejecutar clústeres Apache Spark y Apache Hadoop de una manera sencilla y rentable. Las operaciones que antes tardaban horas o días ahora se realizan en pocos minutos o segundos. Además, solo se paga por los recursos que se utilicen (facturación por segundos). Cloud Dataproc también se integra con facilidad con otros servicios de Google Cloud Platform (GCP), de modo que tienes a tu disposición una plataforma potente y completa para procesar datos, analizarlos y realizar tareas de aprendizaje automático.

Hadoop y Spark administrado

Procesamiento de datos rápido y escalable

Puedes crear rápidamente clústeres de Cloud Dataproc y cambiar su tamaño en cualquier momento (desde tres nodos a cientos de ellos). Así te despreocupas de que las canalizaciones de tus datos sobrepasen los clústeres. Como cada acción de clúster tarda menos de 90 segundos de media, dispones de más tiempo para centrarte en la información valiosa y pierdes menos tiempo supervisando la infraestructura.

Procesamiento de datos rápido y escalable

Precios para todos los bolsillos

Cloud Dataproc ha adoptado los principios de Google Cloud Platform, por lo que se beneficia de una estructura de precios de bajo coste muy fácil de entender basada en el uso real (medido por segundo). Además, los clústeres de Cloud Dataproc pueden incluir instancias priorizables con un coste menor, lo que significa que dispones de clústeres muy potentes por un precio total incluso más bajo.

Precios para todos los bolsillos

Ecosistema de código abierto

El ecosistema de Spark y Hadoop proporciona herramientas, bibliotecas y documentación que puedes aprovechar con Cloud Dataproc. Como ofrece versiones actualizadas y nativas de Spark, Hadoop, Pig y Hive, no tienes que aprender a utilizar herramientas ni API nuevas. Además, puedes mover proyectos o canalizaciones ETL sin necesidad de volver a desarrollarlas.

Ecosistema de código abierto

Características de Cloud Dataproc

Google Cloud Dataproc es un servicio Apache Spark y Apache Hadoop administrado, rápido, fácil de usar y de bajo coste.

Administración automática de clústeres
El despliegue, registro y supervisión administrados te permiten concentrarte en los datos y que no tengas que atender los clústeres, que serán estables, escalables y rápidos.
Clústeres de tamaño ajustable
Es posible crear y escalar clústeres rápidamente con varios tipos de máquinas virtuales, tamaños de disco, número de nodos y opciones de red.
Integrado
Está integrado en Cloud Storage, BigQuery, Bigtable, Stackdriver Logging y Stackdriver Monitoring, lo que significa que disfrutarás de una plataforma de datos completa y sólida.
Control de versiones
El control de versiones de imágenes te permite cambiar entre varias versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad
Ejecuta clústeres con varios nodos maestros y define tareas para reiniciar en caso de fallos con el fin de que los clústeres y los trabajos siempre estén disponibles.
Herramientas de desarrollo
Dispones de diferentes maneras de administrar un clúster, entre ellas una IU web fácil de usar, el SDK de Google Cloud, las API RESTful y el acceso SSH.
Acciones de inicialización
Puedes ejecutar acciones de inicialización para instalar o personalizar la configuración y las bibliotecas necesarias al crear un clúster.
Configuración manual o automática
Cloud Dataproc configura automáticamente el hardware y el software de los clústeres mientras sigue permitiendo el control manual.
Máquinas virtuales flexibles
Los clústeres usan los tipos de máquinas personalizados y las máquinas virtuales no garantizadas para que su tamaño siempre se adapte a tus necesidades.

Cloud Dataflow o Cloud Dataproc: ¿cuál debería utilizar?

Cloud Dataproc y Cloud Dataflow se pueden utilizar para el procesamiento de datos, pero sus funciones de lotes y streaming se solapan. Por ello, ¿cómo puede saber qué producto es el más adecuado para su entorno?
Comparación entre Dataproc y Dataflow

Cloud Dataproc

Cloud Dataproc es adecuado para entornos que dependen de componentes específicos del ecosistema de Big Data de Apache:

  • check Herramientas/paquetes
  • check Flujos de procesamiento
  • check Conjuntos de habilidades de recursos existentes

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos de proyectos nuevos:

  • check Menos sobrecarga operativa
  • check Enfoque unificado para el desarrollo de flujos de procesamiento por lotes o streaming
  • check Utiliza Apache Beam
  • check Permite la portabilidad de flujos de procesamiento en Cloud Dataflow, Apache Spark y Apache Flink como tiempos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de streaming (ETL) check
Procesamiento por lotes (ETL) check check
Procesamiento iterativo y blocs de notas check
Aprendizaje automático con Spark ML check
Preprocesamiento para aprendizaje automático check (con Cloud ML Engine)

Precios de Cloud Dataproc

Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que utilice tu clúster1.

Iowa Oregón Virginia del Norte Carolina del Sur Montreal São Paulo Bélgica Londres Países Bajos Francfórt Sídney Bombay Taiwán Tokio
Tipo de máquina Precio
Máquinas estándar
1-64 CPU virtuales
Máquinas de memoria elevada
2-64 CPU virtuales
Máquinas con un gran número de CPUs
2-64 CPU virtuales
Máquinas personalizadas
Basadas en el uso de vCPU y de memoria
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

1 Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que tu clúster utilice mientras esté operativo. Los recursos adicionales que use Cloud Dataproc, entre ellos la red de Compute Engine, BigQuery y Cloud Bigtable, se facturan a medida que se consumen. Consulta la guía de precios para obtener información más detallada.