Cloud Dataproc

Método rápido, fácil y rentable de ejecutar Apache Spark y Apache Hadoop

Pruébalo gratis

Apache Hadoop y Apache Spark nativos en la nube

Cloud Dataproc es un servicio en la nube rápido, fácil de usar y totalmente administrado para ejecutar clústeres de Apache Spark y Apache Hadoop de una manera más sencilla y rentable. Las operaciones que antes tardaban horas o días ahora se realizan en pocos minutos o segundos. Además, solo se paga por los recursos que se utilicen (facturación por segundos). Cloud Dataproc también se integra con facilidad con otros servicios de Google Cloud Platform (GCP), de modo que tienes a tu disposición una plataforma potente y completa para procesar datos, analizarlos y realizar tareas de aprendizaje automático.

Hadoop y Spark administrado

Procesamiento de datos rápido y escalable

Puedes crear rápidamente clústeres de Cloud Dataproc y cambiar su tamaño en cualquier momento (desde tres nodos a cientos de ellos). Así te despreocupas de que las canalizaciones de tus datos sobrepasen los clústeres. Como cada acción de clúster tarda menos de 90 segundos de media, dispones de más tiempo para centrarte en la información valiosa y pierdes menos tiempo supervisando la infraestructura.

Procesamiento de datos rápido y escalable

Precios para todos los bolsillos

Cloud Dataproc ha adoptado los principios de Google Cloud Platform, por lo que se beneficia de una estructura de precios de bajo coste muy fácil de entender basada en el uso real (medido por segundo). Además, los clústeres de Cloud Dataproc pueden incluir instancias priorizables con un coste menor, lo que significa que dispones de clústeres muy potentes por un precio total incluso más bajo.

Precios para todos los bolsillos

Ecosistema de código abierto

El ecosistema de Spark y Hadoop proporciona herramientas, bibliotecas y documentación que puedes aprovechar con Cloud Dataproc. Como ofrece versiones actualizadas y nativas de Spark, Hadoop, Pig y Hive, no tienes que aprender a utilizar herramientas ni API nuevas. Además, puedes mover proyectos o canalizaciones ETL sin necesidad de volver a desarrollarlas.

Ecosistema de código abierto

Características de Cloud Dataproc

Google Cloud Dataproc es un servicio Apache Spark y Apache Hadoop administrado, rápido, fácil de usar y de bajo coste.

Gestión automática de clústeres
Como el despliegue, el almacenamiento de registros y la supervisión son procesos gestionados, puedes concentrarte en los datos y dejar de atender los clústeres, que van a ser estables, escalables y rápidos.
Clústeres de tamaño ajustable
Puedes crear y escalar rápidamente clústeres con diferentes tipos de máquinas virtuales, tamaños de disco, número de nodos y opciones de red.
Integración
Está integrado en Cloud Storage, BigQuery, Bigtable, Stackdriver Logging y Stackdriver Monitoring, por lo que disfrutas de una plataforma de datos completa y sólida.
Gestión de versiones
Gracias a la gestión de versiones de imágenes, puedes cambiar entre distintas versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad
Ejecuta clústeres con varios nodos maestros y configura tareas de reinicio en caso de fallo para que los clústeres y las tareas estén disponibles siempre.
Herramientas de desarrollo
Dispones de varios métodos para gestionar los clústeres, como una interfaz web fácil de usar, el SDK de Google Cloud, las API RESTful y el acceso SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar la configuración y las bibliotecas necesarias cuando crees clústeres.
Configuración manual o automática
Cloud Dataproc configura automáticamente el hardware y el software de los clústeres, pero también permite el control manual.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos de máquinas personalizadas y máquinas virtuales no garantizadas para que su tamaño se adapte a tus necesidades en todo momento.

Cloud Dataflow o Cloud Dataproc: ¿cuál debería utilizar?

Cloud Dataproc y Cloud Dataflow se pueden utilizar para el procesamiento de datos, pero sus funciones de lotes y streaming se solapan. Por ello, ¿cómo puede saber qué producto es el más adecuado para su entorno?
Comparación entre Dataproc y Dataflow

Cloud Dataproc

Cloud Dataproc es adecuado para entornos que dependen de componentes específicos del ecosistema de Big Data de Apache:

  • check Herramientas y paquetes
  • check Flujos de procesamiento
  • check Conjuntos de habilidades de recursos disponibles

Cloud Dataflow

Cloud Dataflow suele ser la opción preferida para entornos de proyectos nuevos:

  • check Menos sobrecarga operativa
  • check Enfoque unificado del desarrollo de flujos de procesamiento por lotes o de streaming
  • check Uso de Apache Beam
  • check Portabilidad de flujos de procesamiento en Cloud Dataflow, Apache Spark y Apache Flink como entornos de ejecución

Cargas de trabajo recomendadas

CARGAS DE TRABAJO CLOUD DATAPROC CLOUD DATAFLOW
Procesamiento de streaming (ETL) check
Procesamiento por lotes (ETL) check check
Procesamiento iterativo y blocs de notas check
Aprendizaje automático con Spark ML check
Preprocesamiento para aprendizaje automático check (con Cloud ML Engine)

Precios de Cloud Dataproc

Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que utilice tu clúster.1

Iowa (us‑central1) Oregón (us‑west1) Norte de Virginia (us‑east4) Carolina del Sur (us‑east1) Montreal (northamerica‑northeast1) São Paulo (southamerica‑east1) Bélgica (europe‑west1) Londres (europe‑west2) Países Bajos (europe‑west4) Fráncfort (europe‑west3) Sídney (australia‑southeast1) Bombay (asia‑south1) Taiwán (asia‑east1) Tokio (asia‑northeast1)
Tipo de máquina Precio
Máquinas estándar
1-64 CPU virtuales
Máquinas de memoria elevada
2-64 CPU virtuales
Máquinas con un gran número de CPUs
2-64 CPU virtuales
Máquinas personalizadas
Basadas en el uso de vCPU y de memoria
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

1 Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que tu clúster utilice mientras esté operativo. Los recursos adicionales que use Cloud Dataproc, entre ellos la red de Compute Engine, BigQuery y Cloud Bigtable, se facturan a medida que se consumen. Consulta la guía de precios para obtener información más detallada.

Enviar comentarios sobre...