Dataproc

Una manera más rentable, fácil y rápida de ejecutar Apache Spark y Apache Hadoop

Probar gratis

Apache Hadoop y Apache Spark nativos de la nube

Dataproc es un servicio de nube rápido, fácil de usar y completamente administrado para ejecutar clústeres de Apache Spark y Apache Hadoop de forma más simple y rentable. Las operaciones que solían tardar horas o días ahora llevan segundos o minutos, y solo pagas por los recursos que usas (con facturación por segundo). Dataproc también se integra fácilmente en otros servicios de Google Cloud Platform (GCP), lo que te brinda una plataforma completa y potente para el procesamiento de datos, las estadísticas y el aprendizaje automático.

Hadoop y Spark administrados

Procesamiento de datos rápido y escalable

Crea clústeres de Dataproc rápidamente y cambia el tamaño en cualquier momento (de tres a cientos de nodos). Así, la posibilidad de que las canalizaciones de datos superen la capacidad de los clústeres ya no será una preocupación. Tendrás más tiempo para enfocarte en las estadísticas y perderás menos tiempo en la infraestructura: cada acción del clúster toma menos de 90 segundos en promedio.

Procesamiento de datos rápido y escalable

Precios accesibles

Con los mismos principios de determinación de precios de Google Cloud Platform, Dataproc ofrece costos bajos y una estructura de precios que se basa en el uso real y se mide en segundos fácil de entender. Además, los clústeres de Dataproc pueden incluir instancias interrumpibles de menor costo, y descuentos por compromiso de uso y por uso continuo, lo que te permite tener clústeres potentes con un costo total aún más bajo.

Precios accesibles

Ecosistema de código abierto

Puedes usar herramientas, bibliotecas y documentación de Spark y Hadoop con Dataproc. Dataproc proporciona actualizaciones frecuentes a las versiones nativas de Spark, Hadoop, Pig y Hive para que puedas comenzar sin la necesidad de aprender herramientas o API nuevas y migrar proyectos existentes o canalizaciones de ETL sin que se requieran nuevos desarrollos.

Ecosistema de código abierto

Características de Dataproc

Dataproc es un servicio administrado de Apache Spark y Apache Hadoop que es rápido, económico y fácil de usar

Administración de clústeres automatizada
La implementación, los registros y la supervisión administrados te permiten concentrarte en los datos y desentenderte del clúster. Los clústeres de Dataproc son estables, escalables y rápidos.
Clústeres con tamaños ajustables
Crea y escala clústeres con rapidez con varios tipos de máquinas virtuales, tamaños de disco, cantidad de nodos y opciones de redes.
Ajuste de escala automático de clústeres
El ajuste de escala automático de Dataproc proporciona un mecanismo para automatizar la administración de recursos de clústeres y permite agregar y quitar trabajadores (nodos) del clúster de forma automática.
Integración en la nube
Gracias a la integración incorporada con Cloud Storage, BigQuery, Bigtable, Stackdriver Logging, Stackdriver Monitoring y AI Hub, tendrás una plataforma de datos sólida y completa.
Control de versiones
El control de versiones de imágenes te permite trabajar con diferentes versiones de Apache Spark, Apache Hadoop y otras herramientas.
Alta disponibilidad
Ejecuta clústeres en modo de alta disponibilidad con varios nodos principales y configura los trabajos para que se reinicien ante fallas a fin de garantizar que tus clústeres y trabajos tengan una alta disponibilidad.
Seguridad empresarial
Cuando creas un clúster de Dataproc, puedes agregar una configuración de seguridad para habilitar el modo seguro de Hadoop a través de Kerberos. Además, GCP y Dataproc ofrecen funciones de seguridad adicionales que te ayudarán a proteger tus datos. Algunas de las funciones de seguridad específicas de GCP que se usan con mayor frecuencia junto con Dataproc son la encriptación en reposo predeterminada, OS Login, los Controles del servicio de VPC y las claves de encriptación administradas por el cliente (CMEK), entre otras.
Eliminación programada de clústeres
Puedes usar la función de eliminación programada de Cloud Dataproc a fin de evitar que se generen cargos por un clúster inactivo. Con ella, podrás especificar que se borre un clúster después de un período de inactividad establecido, en una hora específica o después de un período determinado.
Configuración manual o automática
Dataproc configura el hardware y el software automáticamente, pero también permite el control manual.
Herramientas para desarrolladores
Hay varias maneras de administrar un clúster, que incluyen el empleo de una IU web fácil de usar, el SDK de Cloud, las API de RESTful y el acceso mediante el protocolo SSH.
Acciones de inicialización
Ejecuta acciones de inicialización para instalar o personalizar las opciones de configuración y las bibliotecas que necesitas cuando se crea un clúster.
Componentes opcionales
Usa los componentes opcionales a fin de instalar y configurar componentes adicionales en el clúster. Los componentes opcionales se integran en los de Dataproc y ofrecen entornos completamente configurados para Zeppelin, Druid, Presto y otros componentes de software de código abierto relacionados con los ecosistemas de Apache Hadoop y Apache Spark.
Imágenes personalizadas
Los clústeres de Cloud Dataproc se pueden aprovisionar con una imagen personalizada que incluya los paquetes del sistema operativo Linux ya instalados.
Máquinas virtuales flexibles
Los clústeres pueden usar tipos personalizados de máquinas y máquinas virtuales interrumpibles para adaptarse a tus necesidades a la perfección.
Component Gateway y Notebook Access
Component Gateway de Dataproc permite acceder de forma segura y con un solo clic a las interfaces web de componentes predeterminados y opcionales de Dataproc que se ejecutan en el clúster.
Plantillas de flujo de trabajo
Las plantillas de flujo de trabajo de Dataproc brindan un mecanismo flexible y fácil de usar para la administración y ejecución de flujos de trabajo. Estas plantillas son configuraciones reutilizables de flujos de trabajo que definen un grafo de trabajos con información sobre los lugares en que se deben ejecutar esos trabajos.

Precios de Dataproc

Dataproc genera una pequeña tarifa incremental por cada CPU virtual en las instancias de Compute Engine que se usan en tu clúster1.

Blogs destacados

Lee los blogs más recientes para comprender mejor el procesamiento de datos de código abierto en la nube

Momentos destacados de Next ’19

Observa cómo los clientes usan Dataproc para disminuir los costos y tomar decisiones basadas en datos en sus organizaciones

Funciones más recientes de Cloud Dataproc
video_youtube
Cómo los clientes migran Hadoop a Google Cloud Platform
video_youtube
Democratización de Dataproc
video_youtube
Google Cloud

Comienza ahora

Aprende y crea

¿Acabas de comenzar a usar GCP? Empieza a usar cualquier producto sin costo con un crédito de $300.

¿Necesitas más ayuda?

Nuestros expertos te ayudarán a crear la solución adecuada o a encontrar al socio más conveniente según tus necesidades.

Los productos mencionados en esta página están en versión Alfa, Beta o en acceso anticipado. Para obtener más información sobre las etapas de lanzamiento de nuestros productos, haz clic aquí.

Los productos de IA de Cloud satisfacen las políticas de ANS que se indican aquí. Es posible que ofrezcan garantías de latencia o disponibilidad distintas de otros servicios de Google Cloud.

Enviar comentarios sobre…