Google Cloud Dataproc puede ofrecer un ahorro de costes de entre el 18 % y el 60 % en comparación con otras alternativas de Hadoop y Spark basadas en la nube. Descargar informe de ESG

Dataproc

Una plataforma gestionada para Spark, Hadoop y analíticas de código abierto

Ejecuta clústeres totalmente gestionados de Apache Spark, Hadoop y más de 30 frameworks de software libre con facilidad y control. Acelera Spark en Compute Engine con Lightning Engine e intégralo con la lakehouse abierta de Google Cloud.

Apache Spark es una marca de The Apache Software Foundation.

Características

Compatibilidad con un ecosistema de Hadoop potente

Además de Spark, Dataproc ofrece servicios totalmente gestionados para la pila completa de Apache Hadoop (MapReduce, HDFS, YARN), así como Flink, Trino, Hive y más de 30 herramientas de software libre. Para admitirlos, Dataproc se integra con Dataproc Metastore, un servicio totalmente gestionado de Hive Metastore que simplifica la gestión de metadatos de los componentes de tu data lake tradicional. Moderniza las cargas de trabajo de los lagos de datos tradicionales o crea nuevas aplicaciones con tus motores preferidos.

Managed Spark con Lightning Engine

Ejecuta cargas de trabajo exigentes de Spark con el control de un clúster de Dataproc gestionado, ahora con una velocidad de consulta 4,3 veces superior* gracias al motor Lightning,** en versión preliminar. Disfruta de mejoras significativas en el rendimiento de las operaciones de Spark SQL y DataFrame. Configura los entornos de Spark según tus necesidades y elige las versiones y las bibliotecas.

*Las consultas se derivan del estándar TPC-DS y del estándar TPC-H, por lo que no se pueden comparar con los resultados publicados del estándar TPC-DS y del estándar TPC-H, ya que estas ejecuciones no cumplen todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.

**Disponible para Dataproc en Compute Engine en el nivel premium.

Configuración y gestión flexibles de clústeres

Personaliza los clústeres de Dataproc con una amplia gama de tipos de máquina (incluidas las GPUs), máquinas virtuales interrumpibles, opciones de disco, políticas de autoescalado, acciones de inicialización, contenedores/imágenes y componentes opcionales. Usa funciones como las plantillas de flujos de trabajo para orquestar trabajos complejos y gestiona clústeres a través de la consola, gcloud, la API o las bibliotecas de cliente. Disfruta de una visibilidad exhaustiva del rendimiento y el estado de los clústeres gracias a la integración con Cloud Monitoring, que ofrece métricas, paneles de control y funciones de alertas completos.

Conectividad de lakehouse abierta

Los clústeres de Dataproc se integran de forma nativa con BigLake Metastore, lo que te permite procesar datos almacenados en formatos abiertos como Apache Iceberg en Cloud Storage. Para las necesidades de metadatos tradicionales basadas en Hive, hay una integración perfecta con el servicio gestionado Dataproc Metastore. Aprovecha el catálogo universal de Dataplex para un descubrimiento, un linaje y una gobernanza unificados en todos tus recursos de lakehouse. Amplía tus aplicaciones de datos conectando Dataproc con BigQuery, Vertex AI, Spanner, Pub/Sub y Data Fusion para crear soluciones integrales y eficaces.

Protege el tratamiento de datos de código abierto

Disfruta de la sólida seguridad de Google Cloud. Configura Kerberos, gestiona el acceso con IAM, aplica políticas de red con Controles de Servicio de VPC y usa CMEK. Integra Dataplex Universal Catalog para gestionar las políticas de forma centralizada y habilita el control de acceso pormenorizado con BigLake.

Ofrece herramientas a los ingenieros de datos y a los científicos de datos

Utiliza herramientas y entornos de desarrollo (IDEs) que ya conoces, como los IDEs de Jupyter y VS Code, que se ejecutan en tus portátiles para conectar los clústeres de Dataproc. Integra Dataproc con Vertex AI Workbench para desarrollar Spark de forma interactiva en clústeres y crea flujos de procesamiento de IA y aprendizaje automático de extremo a extremo con Vertex AI.

Cómo funciona

Operaciones de clústeres simplificadas para analíticas potentes

Usos habituales

Modernización de data lake y migración de Hadoop

Moderniza tu data lake

Migra tus cargas de trabajo de Hadoop y Spark on-premise a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados con Dataproc Metastore y gestionados por Dataplex Universal Catalog.

Tutoriales, guías de inicio rápido y experimentos

Moderniza tu data lake

Migra tus cargas de trabajo de Hadoop y Spark on-premise a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados con Dataproc Metastore y gestionados por Dataplex Universal Catalog.

ETL por lotes a gran escala con Spark y Hadoop

Procesamiento por lotes para empresas

Procesa y transforma conjuntos de datos enormes de forma eficiente con Spark, que se acelera con Lightning Engine en Dataproc en Compute Engine, o MapReduce en clústeres de Dataproc personalizables. Optimiza el rendimiento y los costes de flujos de procesamiento ETL complejos en un entorno controlado.

Tutoriales, guías de inicio rápido y experimentos

Procesamiento por lotes para empresas

Procesa y transforma conjuntos de datos enormes de forma eficiente con Spark, que se acelera con Lightning Engine en Dataproc en Compute Engine, o MapReduce en clústeres de Dataproc personalizables. Optimiza el rendimiento y los costes de flujos de procesamiento ETL complejos en un entorno controlado.

Entornos de ciencia de datos y aprendizaje automático configurables

Ciencia de datos personalizada a escala

Reactiva clústeres de Dataproc diseñados para un propósito concreto con versiones específicas de Spark, Jupyter y las bibliotecas de aprendizaje automático que necesites para colaborar en el entrenamiento de modelos a gran escala y crear analíticas avanzadas. Integración con Vertex AI para MLOps.

Recetas de IA y aprendizaje automático para Dataproc

Tutoriales, guías de inicio rápido y experimentos

Ciencia de datos personalizada a escala

Reactiva clústeres de Dataproc diseñados para un propósito concreto con versiones específicas de Spark, Jupyter y las bibliotecas de aprendizaje automático que necesites para colaborar en el entrenamiento de modelos a gran escala y crear analíticas avanzadas. Integración con Vertex AI para MLOps.

Recetas de IA y aprendizaje automático para Dataproc

Ejecutar diversos motores de analíticas de código abierto

Software libre flexible

Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de flujos o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos gestionados por Dataproc.

Dataproc y TensorFlow on YARN

Tutoriales, guías de inicio rápido y experimentos

Software libre flexible

Despliega clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento avanzado de flujos o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos gestionados por Dataproc.

Dataproc y TensorFlow on YARN

Generar una solución

¿Qué problema intentas resolver?

What you'll get:

Guía paso a paso

Arquitectura de referencia

Soluciones prediseñadas disponibles

Este servicio se ha creado con Vertex AI. Debes tener al menos 18 años para usarlo. No incluyas información sensible, confidencial ni personal.

Precios

Precios de Dataproc para clústeres gestionados	Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles. El nivel premium de Compute Engine permite que Spark sea más rápido con Lightning Engine.
Componentes clave:	Instancias de Compute Engine (vCPU y memoria) Tarifa del servicio Dataproc (por hora de vCPU) Discos persistentes
Ejemplo:	Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD

Consulta los precios detallados de Dataproc

Precios de Dataproc para clústeres gestionados

Dataproc ofrece un modelo de precios de pago por uso. Optimiza los costes con el autoescalado y las máquinas virtuales interrumpibles. El nivel premium de Compute Engine permite que Spark sea más rápido con Lightning Engine.

Componentes clave:

Instancias de Compute Engine (vCPU y memoria)
Tarifa del servicio Dataproc (por hora de vCPU)
Discos persistentes

Ejemplo:

Un clúster con 6 nodos (1 principal y 5 trabajadores) de 4 CPUs cada uno que se ejecute durante 2 horas costará 0,48 USD. Cargo de Dataproc = número de vCPUs * horas * precio de Dataproc = 24 * 2 * 0,01 USD = 0,48 USD

Consulta los precios detallados de Dataproc

Calculadora de precios

Calcula tus costes mensuales de Dataproc, incluidos los precios y las tarifas específicas de cada región.

Presupuesto personalizado

Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.

Dataproc

Una plataforma gestionada para Spark, Hadoop y analíticas de código abierto

Aspectos destacados del producto:

Compatibilidad con un ecosistema de Hadoop potente

Managed Spark con Lightning Engine

Configuración y gestión flexibles de clústeres

Conectividad de lakehouse abierta

Protege el tratamiento de datos de código abierto

Ofrece herramientas a los ingenieros de datos y a los científicos de datos

Operaciones de clústeres simplificadas para analíticas potentes

Modernización de data lake y migración de Hadoop

Moderniza tu data lake

Tutoriales, guías de inicio rápido y experimentos

Moderniza tu data lake

ETL por lotes a gran escala con Spark y Hadoop

Procesamiento por lotes para empresas

Tutoriales, guías de inicio rápido y experimentos

Procesamiento por lotes para empresas

Entornos de ciencia de datos y aprendizaje automático configurables

Ciencia de datos personalizada a escala

Tutoriales, guías de inicio rápido y experimentos

Ciencia de datos personalizada a escala

Ejecutar diversos motores de analíticas de código abierto

Software libre flexible

Tutoriales, guías de inicio rápido y experimentos

Software libre flexible

Calculadora de precios

Presupuesto personalizado

Empieza ya

300 USD en crédito gratis para los nuevos clientes

¿Tienes un proyecto de gran envergadura?

Crea un clúster de Dataproc mediante la consola de Google Cloud

Utilizar el conector de Cloud Storage con Apache Spark

El centro de arquitectura proporciona recursos de contenido sobre una amplia variedad de temas y situaciones de migración para ayudarte