Cloud Dataproc

Una manera más rentable, fácil y rápida de ejecutar Apache Spark y Apache Hadoop

Prueba gratis

Apache Hadoop y Apache Spark nativos de la nube

Cloud Dataproc es un servicio de nube rápido, fácil de usar y completamente administrado para ejecutar clústeres de Apache Spark y Apache Hadoop de forma más simple y rentable. Las operaciones que solían tardar horas o días ahora llevan segundos o minutos, y solo pagas por los recursos que usas (con facturación por segundo). Además, Cloud Dataproc se integra con facilidad a otros servicios de Google Cloud Platform (GCP), de modo que cuentas con una plataforma completa y potente para el procesamiento de datos, las estadísticas y el aprendizaje automático.

Hadoop y Spark administrados

Procesamiento de datos rápido y escalable

Crea clústeres de Cloud Dataproc rápidamente y cambia el tamaño en cualquier momento (de tres a cientos de nodos). Así, la posibilidad de que las canalizaciones de datos superen la capacidad de los clústeres ya no será una preocupación. Tienes más tiempo para enfocarte en las estadísticas gracias a que se pierde menos tiempo en la infraestructura: cada acción de clúster toma menos de 90 segundos en promedio.

Procesamiento de datos rápido y escalable

Precios accesibles

Con los mismos principios de determinación de precios de Google Cloud Platform, Cloud Dataproc ofrece costos bajos y una estructura de precios, que se basa en el uso real y se mide en segundos, fácil de entender. Además, los clústeres de Cloud Dataproc pueden incluir instancias interrumpibles de menor costo, descuentos por compromiso de uso y por uso continuo, lo que te permite tener clústeres potentes con un costo total aún más bajo.

Precios accesibles

Ecosistema de código abierto

Puedes usar herramientas, bibliotecas y documentación de Spark y Hadoop con Cloud Dataproc. Cloud Dataproc proporciona actualizaciones frecuentes a las versiones nativas de Spark, Hadoop, Pig y Hive para que puedas comenzar sin la necesidad de aprender herramientas o API nuevas y migrar proyectos existentes o canalizaciones de ETL sin que se requieran nuevos desarrollos.

Ecosistema de código abierto

Características de Cloud Dataproc

Cloud Dataproc es un servicio administrado de Apache Spark y Apache Hadoop que es rápido, económico y fácil de usar

Administración de clústeres automatizada
La implementación, los registros y la supervisión administrados te permiten enfocarte en los datos en lugar de en el clúster. Los clústeres de Cloud Dataproc son estables, escalables y rápidos.
Clústeres con tamaños ajustables
Crea y escala clústeres con rapidez con varios tipos de máquinas virtuales, tamaños de disco, cantidad de nodos y opciones de redes.
Ajuste de escala automático de clústeres
Cloud Dataproc Autoscaling proporciona un mecanismo para automatizar la administración de recursos de clústeres y permite agregar y quitar trabajadores (nodos) de clúster de forma automática.
Integración en la nube
Gracias a la integración incorporada con Cloud Storage, BigQuery, Cloud Bigtable, Stackdriver Logging, Stackdriver Monitoring y AI Hub, tendrás una plataforma de datos sólida y completa.
Control de versiones
El control de versiones de imágenes te permite trabajar con diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad
Ejecuta clústeres en modo de alta disponibilidad con varios nodos principales y configura los trabajos para que se reinicien ante fallas a fin de garantizar que tus clústeres y trabajos tengan una alta disponibilidad.
Seguridad empresarial
Cuando creas un clúster de Cloud Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, GCP y Cloud Dataproc ofrecen funciones de seguridad adicionales que te ayudarán a proteger tus datos. Algunas de las funciones de seguridad específicas de GCP que se usan con mayor frecuencia junto con Cloud Dataproc son la encriptación en reposo predeterminada, OS Login, los controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.
Eliminación programada de clústeres
Puedes usar la función de eliminación programada de Cloud Dataproc a fin de evitar que se generen cargos por un clúster inactivo, con ella podrás especificar que se borre un clúster después de un período de inactividad establecido, así como en momentos futuros o después de períodos determinados.
Configuración manual o automática
Cloud Dataproc configura el hardware y software automáticamente, pero también permite el control manual.
Herramientas para desarrolladores
Hay varias maneras de administrar un clúster, que incluyen el empleo de una IU web fácil de usar, el SDK de Cloud, las API de RESTful y el acceso mediante el protocolo SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar las opciones de configuración y las bibliotecas que necesitas cuando se crea un clúster.
Componentes opcionales
Usa los componentes opcionales a fin de instalar y configurar componentes adicionales en el clúster. Los componentes opcionales se integran en los de Cloud Dataproc y ofrecen entornos completamente configurados para Zeppelin, Druid, Presto y otros componentes de software de código abierto relacionados con los ecosistemas de Apache Hadoop y Apache Spark.
Imágenes personalizadas
Los clústeres de Cloud Dataproc se pueden aprovisionar con una imagen personalizada que incluya tus paquetes del sistema operativo Linux ya instalados.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para adaptarse a tus necesidades a la perfección.
Component Gateway y Notebook Access
Component Gateway de Cloud Dataproc permite acceder de forma segura y con un solo clic a las interfaces web de componentes predeterminadas y opcionales de Cloud Dataproc que se ejecutan en el clúster.
Plantillas de flujo de trabajo
Las plantillas de flujo de trabajo de Cloud Dataproc brindan un mecanismo flexible y fácil de usar para la administración y ejecución de flujos de trabajo. Estas plantillas son configuraciones reutilizables de flujos de trabajo que definen grafos de trabajos con información sobre los lugares en que se deben ejecutar esos trabajos.

Precios de Cloud Dataproc

Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster1.

Iowa (us-central1) Oregón (us-west1) Virginia del Norte (us-east4) Carolina del Sur (us-east1) Montreal (northamerica-northeast1) San Pablo (southamerica-east1) Bélgica (europe-west1) Londres (europe-west2) Países Bajos (europe-west4) Zürich (europe-west6) Francfort (europe-west3) Sídney (australia-southeast1) Bombay (asia-south1) Hong Kong (asia-east2) Taiwán (asia-east1) Tokio (asia-northeast1) Osaka (asia-northeast2)
Tipo de máquina Precio
Máquinas estándar
De 1 a 64 CPU virtuales
Máquinas con alta capacidad de memoria
De 2 a 64 CPU virtuales
Máquinas con alta capacidad de CPU
De 2 a 64 CPU virtuales
Máquinas personalizadas
Según tu uso de CPU virtuales y memoria
Si pagas en una moneda distinta del dólar estadounidense, se aplican los precios que aparecen en tu moneda en los SKU de Cloud Platform.

1 Cloud Dataproc genera un pequeño costo incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster mientras este funciona. Otros recursos usados por Cloud Dataproc, entre ellos, la red de Compute Engine, BigQuery y Cloud Bigtable, se facturan a medida que se consumen. Para obtener información detallada sobre los precios, consulta la guía de precios.

Blogs destacados

Lee los blogs más recientes para comprender mejor el procesamiento de datos de código abierto en la nube

Momentos destacados de Next ’19

Observa cómo los clientes usan Cloud Dataproc para disminuir los costos y tomar decisiones basadas en datos en sus organizaciones

Funciones más recientes de Cloud Dataproc
video_youtube
Cómo los clientes migran Hadoop a Google Cloud Platform
video_youtube
Democratización de Dataproc
video_youtube
Google Cloud

Comienza ahora

Aprende y crea

¿Acabas de comenzar a usar GCP? Comienza a usar cualquier producto sin costo con un crédito de $300.

¿Necesitas más ayuda?

Nuestros expertos te ayudarán a compilar la solución adecuada o a encontrar el socio más conveniente según tus necesidades.

Los productos mencionados en esta página están en versión Alfa, Beta o en acceso anticipado. Para obtener más información sobre las etapas de lanzamiento de nuestros productos, haz clic aquí.

Los productos de IA de Cloud satisfacen las políticas del ANS que se indican aquí. Es posible que ofrezcan garantías de latencia o disponibilidad distintas de otros servicios de Google Cloud.

Enviar comentarios sobre…