Cloud Dataproc

Método rápido, fácil y rentable de ejecutar Apache Spark y Apache Hadoop

Probar gratis

Apache Hadoop y Apache Spark nativos de la nube

Cloud Dataproc es un servicio en la nube rápido, fácil de usar y totalmente gestionado para ejecutar clústeres de Apache Spark y Apache Hadoop de una manera más sencilla y rentable. Las operaciones que antes llevaban horas o días tardan apenas unos minutos o segundos. Además, solo se paga por los recursos que se utilizan (facturación por segundos). Cloud Dataproc también se integra con facilidad con otros servicios de Google Cloud Platform (GCP), de modo que tienes a tu disposición una plataforma potente y completa para procesar datos, analizarlos y realizar tareas de aprendizaje automático.

Hadoop y Spark gestionados

Procesamiento de datos rápido y escalable

Puedes crear rápidamente clústeres de Cloud Dataproc y cambiar su tamaño en cualquier momento (desde tres nodos a cientos de ellos). Así te despreocupas de que los flujos de procesamiento de tus datos sobrepasen los clústeres. Como cada acción de clúster tarda menos de 90 segundos de media, dispones de más tiempo para centrarte en la información valiosa y puedes supervisar la infraestructura más rápido.

Procesamiento de datos rápido y escalable

Precios asequibles

Cloud Dataproc ha adoptado los principios de Google Cloud Platform, por lo que se beneficia de una estructura de precios de bajo coste muy fácil de entender basada en el uso real (medido por segundo). Además, los clústeres de Cloud Dataproc pueden incluir instancias no garantizadas con un coste menor, descuentos por uso confirmado y por uso continuado, lo que significa que dispones de clústeres muy potentes por un precio total incluso más bajo.

Precios asequibles

Ecosistema de código abierto

Con Cloud Dataproc, podrás utilizar las herramientas, las bibliotecas y la documentación de Spark y Hadoop. Además, como ofrece actualizaciones frecuentes de las versiones nativas de Spark, Hadoop, Pig y Hive, no tienes que aprender a utilizar herramientas ni API nuevas para empezar a usarlo. Además, puedes mover proyectos o flujos de procesamiento ETL sin necesidad de volver a desarrollarlos.

Ecosistema de código abierto

Características de Cloud Dataproc

Cloud Dataproc es un servicio Apache Spark y Apache Hadoop gestionado, rápido, fácil de usar y de bajo coste

Gestión automática de clústeres
Como el despliegue, el almacenamiento de registros y la supervisión son procesos gestionados, puedes centrarte en los datos en lugar de en los clústeres, que son estables, escalables y rápidos con Cloud Dataproc.
Clústeres de tamaño ajustable
Crea y escala rápidamente clústeres con varios tipos de máquinas virtuales, tamaños de disco, número de nodos y opciones de red.
Autoescalado de clústeres
El autoescalado de Cloud Dataproc es un mecanismo de automatización de la gestión de los recursos de clústeres que permite que se añadan y quiten automáticamente trabajadores del clúster (es decir, nodos).
Integración en la nube
Está integrado en Cloud Storage, BigQuery, Cloud Bigtable, Stackdriver Logging, Stackdriver Monitoring y AI Hub, por lo que disfrutas de una plataforma de datos completa y sólida.
Gestión de versiones
Gracias a la gestión de versiones de imágenes, puedes cambiar entre distintas versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad
Ejecuta clústeres en el modo de alta disponibilidad con varios nodos maestros y configura tareas de reinicio en caso de fallo para que los clústeres y las tareas estén siempre disponibles.
Seguridad empresarial
Al crear un clúster de Cloud Dataproc puedes habilitar el modo seguro de Hadoop a través de Kerberos añadiendo una configuración de seguridad. GCP y Cloud Dataproc ofrecen también otras prestaciones de seguridad que contribuyen a proteger tus datos. Algunas de las funciones de seguridad específicas de GCP más utilizadas con Cloud Dataproc son el encriptado en reposo predeterminado, OS Login, los Controles de Servicio de VPC y las claves de encriptado gestionadas por el cliente (CMEK)
Eliminación programada de clústeres
Para evitar que se te cobre por clústeres inactivos, puedes usar la eliminación programada de Cloud Dataproc, que te permite deshacerte de clústeres cuando llevan un tiempo especificado inactivos, en un momento futuro o tras un periodo concreto.
Configuración manual o automática
Cloud Dataproc configura automáticamente el hardware y el software, pero también te ofrece control manual.
Herramientas de desarrollo
Dispones de varios métodos para gestionar los clústeres, como una interfaz web intuitiva, el SDK de Cloud, las API RESTful y el acceso SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar la configuración y las bibliotecas necesarias cuando crees clústeres.
Componentes opcionales
Instala o configura componentes opcionales en el clúster. Estos componentes están integrados con los de Cloud Dataproc y ofrecen entornos plenamente configurados para Zeppelin, Druid, Presto y otros componentes de software libre relacionados con el ecosistema de Apache Hadoop y Apache Spark.
Imágenes personalizadas
Los clústeres de Cloud Dataproc se pueden aprovisionar con una imagen personalizada que incluye tus paquetes de sistema operativo Linux preinstalados.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos de máquinas personalizadas y máquinas virtuales no garantizadas para que su tamaño se adapte a tus necesidades en todo momento.
Pasarela de componentes y acceso a cuadernos
La pasarela de componentes de Cloud Dataproc te otorga acceso seguro en un clic a las interfaces web de componentes opcionales y predeterminadas de Cloud Dataproc que se ejecutan en el clúster.
Plantillas de flujo de trabajo
Las plantillas de flujo de trabajo de Cloud Dataproc son un mecanismo útil para gestionar y ejecutar flujos de trabajo. Estas plantillas son configuraciones de flujos de trabajo reutilizables que definen un gráfico de tareas con información sobre dónde ejecutar dichas tareas.

Precios de Cloud Dataproc

Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que utilice tu clúster1

Iowa (us-central1) Oregón (us-west1) Norte de Virginia (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Bélgica (europe-west1) Londres (europe-west2) Países Bajos (europe-west4) Zúrich (europe-west6) Fráncfort (europe-west3) Sídney (australia-southeast1) Bombay (asia-south1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1) Osaka (asia-northeast2)
Tipo de máquina Precio
Máquinas estándar
1-64 CPU virtuales
Máquinas de memoria elevada
2-64 CPU virtuales
Máquinas con un gran número de CPU
2-64 CPU virtuales
Máquinas personalizadas
Basadas en el uso de vCPU y de memoria
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

1 Cloud Dataproc conlleva una pequeña tarifa incremental por CPU virtual en las instancias de Compute Engine que tu clúster utilice mientras esté operativo. Otros recursos que use Cloud Dataproc, como la red de Compute Engine, BigQuery y Cloud Bigtable, se facturan a medida que se consumen. Consulta la guía de precios para obtener información más detallada.

Entradas de blog destacadas

Echa un vistazo a las últimas entradas de nuestros blogs para comprender mejor el tratamiento de datos de código abierto en la nube

Lo más destacado de Next '19

Descubre cómo usan Cloud Dataproc nuestros clientes para ahorrar costes y tomar decisiones basadas en los datos en su organización

Cloud Dataproc's Newest Features
video_youtube
How Customers Are Migrating Hadoop to Google Cloud Platform
video_youtube
Democratizing Dataproc
video_youtube
Google Cloud

Primeros pasos

Aprendizaje y desarrollo

¿Acabas de aterrizar en GCP? Empieza a usar cualquiera de los productos de la plataforma con un crédito gratuito de 300 USD.

¿Necesitas más ayuda?

Nuestros expertos te ayudarán a crear la solución adecuada o encontrar al partner que mejor se ajuste a tus necesidades.

Los productos de esta página están en versión alfa, beta o acceso anticipado. Más información sobre nuestras fases de lanzamiento

Los productos de inteligencia artificial de Cloud cumplen las políticas del acuerdo de nivel de servicio. Pueden ofrecer garantías de latencia o disponibilidad diferentes respecto a otros servicios de Google Cloud.

Enviar comentarios sobre...