
Ejecuta cargas de trabajo de Apache Spark con Spark sin servidor y sin operaciones o con clústeres gestionados. Agiliza el desarrollo con flujos de trabajo de IA basados en agentes y mejora el rendimiento con Lightning Engine.
Los nuevos clientes reciben 300 USD en crédito sin coste para probar Managed Service for Apache Spark y otros productos de Google Cloud.
Apache Spark es una marca de The Apache Software Foundation.
Características
Acelera las cargas de trabajo de ETL y SQL a gran escala hasta 4,9 veces más rápido que Apache Spark de código abierto sin tener que cambiar ni una línea de código. Lightning Engine utiliza un motor de ejecución vectorizado nativo de C++, almacenamiento en caché inteligente y un intercambio de columnas optimizado. Combina esta función con el ajuste automático inteligente de Spark para eliminar el impuesto de ajuste manual, optimizar la memoria y evitar errores de falta de memoria automáticamente.
*Las consultas se derivan del estándar TPC-DS y del estándar TPC-H
Crea una arquitectura de lakehouse abierto que garantice la independencia del motor. Procesa datos en formatos abiertos como Apache Iceberg directamente desde Google Cloud Storage. Se integra a la perfección con BigQuery y Knowledge Catalog (antes Dataplex) para ofrecer analíticas y gobierno de datos unificados, lo que garantiza una interoperabilidad real entre varios motores sin capas de traducción.
Elimina la acumulación de tareas pendientes con agentes de datos que toman medidas, no solo responden preguntas. Agiliza tu flujo de trabajo usando Gemini integrado en la extensión agéntica de VSCode para aumentar la productividad de las cargas de trabajo de Spark desde el desarrollo hasta la producción, o bien usa el IDE que prefieras. Aprovecha los agentes de ingeniería de datos y ciencia de datos para automatizar la manipulación de datos, crear flujos de procesamiento a partir de lenguaje natural y generar código de PySpark. Soluciona automáticamente los problemas de las tareas de Spark con Gemini Cloud Assist. Combina SQL y Spark en un solo cuaderno unificado basado en IA.
Crea y pon en funcionamiento todo tu ciclo de vida de aprendizaje automático. Acelera el entrenamiento y la inferencia de los modelos con la compatibilidad con GPUs, la tecnología de NVIDIA RAPIDS y los entornos de ejecución de aprendizaje automático preconfigurados para PyTorch y XGBoost. Intégralo con el ecosistema de IA de Google Cloud para orquestar MLOps de principio a fin y gestionar recursos con la integración del registro de modelos de Gemini Enterprise Agent Platform.
Se integra a la perfección con tu estrategia de seguridad mediante IAM, Controles de Servicio de VPC y Kerberos. Migra fácilmente cargas de trabajo de Spark en la nube y heredadas con las plantillas y las herramientas de Managed Service for Apache Spark. Migra cargas de trabajo mediante lift-and-shift con compatibilidad con Spark 2.x hasta Spark 4.0 sin tener que refactorizar el código de inmediato.
Maximiza el uso de los recursos y reduce los costes de inactividad. Implementa clústeres de Spark multicliente que permitan que hasta 800 usuarios compartan recursos de computación manteniendo un estricto aislamiento de los datos y del entorno. Controla tu factura con funciones de escalado a cero, facturación por segundo y compatibilidad con máquinas virtuales de acceso puntual para cargas de trabajo flexibles.
Evita depender de proveedores. Aunque están optimizados para Apache Spark, nuestros clústeres gestionados admiten más de 30 herramientas de código abierto, como Apache Hadoop, Flink y Trino. Se integra a la perfección con orquestadores como Managed Service for Apache Airflow y se puede ampliar con Kubernetes y Docker para ofrecer la máxima flexibilidad.
Opciones de implementación
| Opciones de implementación | Elige entre el control detallado de los clústeres gestionados o la sencillez sin operaciones de una experiencia sin servidor para encontrar la mejor opción para tu carga de trabajo. | ||
|---|---|---|---|
| Modo de despliegue: | Descripción | Ideal para: | Por lo que pagas: |
Sin servidor | Tareas de Spark como servicio. Managed Spark, infraestructura gestionada. | Nuevos flujos de procesamiento, análisis interactivos y cargas de trabajo con picos de demanda en los que se prefiere un modelo de operaciones cero y pago por tarea. | Tiempo de ejecución de la tarea |
Clústeres | Clústeres de Spark como servicio. Managed Spark, tu infraestructura | Migrar cargas de trabajo antiguas de Spark o de OSS, ejecutar clústeres persistentes o necesitar una personalización profunda de código abierto. | Tiempo de funcionamiento del clúster |
Opciones de implementación
Elige entre el control detallado de los clústeres gestionados o la sencillez sin operaciones de una experiencia sin servidor para encontrar la mejor opción para tu carga de trabajo.
Sin servidor
Tareas de Spark como servicio.
Managed Spark, infraestructura gestionada.
Nuevos flujos de procesamiento, análisis interactivos y cargas de trabajo con picos de demanda en los que se prefiere un modelo de operaciones cero y pago por tarea.
Tiempo de ejecución de la tarea
Clústeres
Clústeres de Spark como servicio.
Managed Spark, tu infraestructura
Migrar cargas de trabajo antiguas de Spark o de OSS, ejecutar clústeres persistentes o necesitar una personalización profunda de código abierto.
Tiempo de funcionamiento del clúster
Cómo funciona
Simplifica Spark con clústeres gestionados o sin servidor y sin operaciones. Trabaja de forma más inteligente con Gemini en tu IDE favorito, usando la IA agentiva para acelerar el desarrollo de PySpark. Ejecuta tareas más rápido con Lightning Engine y mantén una gobernanza unificada en todo tu lakehouse abierto con Knowledge Catalog.
Flujos de ETL automatizados
Crea flujos de procesamiento de ETL de Spark robustos y basados en eventos que se escalen automáticamente bajo demanda. Aprovecha la ejecución sin servidor para cargas de trabajo irregulares o los clústeres gestionados para trabajos persistentes. Usa plantillas de flujo de trabajo para automatizar tus tareas de procesamiento de datos más importantes de principio a fin.
Flujos de ETL automatizados
Crea flujos de procesamiento de ETL de Spark robustos y basados en eventos que se escalen automáticamente bajo demanda. Aprovecha la ejecución sin servidor para cargas de trabajo irregulares o los clústeres gestionados para trabajos persistentes. Usa plantillas de flujo de trabajo para automatizar tus tareas de procesamiento de datos más importantes de principio a fin.
Ciencia de datos interactiva
Permite a los científicos de datos explorar datos e iterar en modelos de aprendizaje automático de Spark. Unifica SQL y Spark con Gemini mediante la extensión agéntica de VSCode o el IDE que prefieras, pasando sin problemas de la exploración de datos a la creación de modelos con PySpark mediante la ejecución sin servidor. Asigna GPUs con un solo comando.
Ciencia de datos interactiva
Permite a los científicos de datos explorar datos e iterar en modelos de aprendizaje automático de Spark. Unifica SQL y Spark con Gemini mediante la extensión agéntica de VSCode o el IDE que prefieras, pasando sin problemas de la exploración de datos a la creación de modelos con PySpark mediante la ejecución sin servidor. Asigna GPUs con un solo comando.
Data lakehouse abierto
Usa Managed Service for Apache Spark como motor de procesamiento para tu data lakehouse moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos. Se integra con BigQuery y Lakehouse para Apache Iceberg para ofrecer una plataforma de analíticas unificada y con varios motores.
Data lakehouse abierto
Usa Managed Service for Apache Spark como motor de procesamiento para tu data lakehouse moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos. Se integra con BigQuery y Lakehouse para Apache Iceberg para ofrecer una plataforma de analíticas unificada y con varios motores.
Precios
| Cómo funcionan los precios de Managed Service for Apache Spark | El precio depende del modelo de despliegue que se seleccione. En el caso de la computación sin servidor, se factura por ejecución de tarea, mientras que en el caso de los clústeres, se factura por la computación subyacente y el tiempo de funcionamiento. | |
|---|---|---|
| Modo de despliegue: | ¿Qué pagas?: | Importe que se te cobra: |
Sin servidor | De este modo, pagas únicamente por lo que utilizas. Se factura por segundo el uso de recursos de computación, GPUs y almacenamiento de Shuffle. El escalado a cero garantiza que nunca pagues por la capacidad inactiva. | Desde 0,06 USD por DCU por hora |
Nivel Premium y aceleradores: Accede a Lightning Engine para disfrutar de un rendimiento hasta 4,9 veces más rápido o conecta GPUs de NVIDIA para cargas de trabajo de IA o aprendizaje automático. | Desde 0,089 USD por DCU por hora Nivel premium sin servidor | |
Clústeres | Pago por tiempo de funcionamiento del clúster. Se te facturarán los recursos subyacentes de Compute Engine más una tarifa de gestión fija. Aprovecha las máquinas virtuales de acceso puntual y el escalado a cero para optimizar los costes. | Desde 0,01 USD por hora de vCPU Cuota de gestión |
Complemento Lightning Engine: Ofrece un rendimiento revolucionario en tus clústeres. Disfruta de una ejecución hasta 4,9 veces más rápida que la de Spark de código abierto. | Desde 0,0025 USD por hora de vCPU | |
Consulta más información sobre los precios de Managed Service for Apache Spark. Ver toda la información sobre los precios.
Cómo funcionan los precios de Managed Service for Apache Spark
El precio depende del modelo de despliegue que se seleccione. En el caso de la computación sin servidor, se factura por ejecución de tarea, mientras que en el caso de los clústeres, se factura por la computación subyacente y el tiempo de funcionamiento.
Sin servidor
De este modo, pagas únicamente por lo que utilizas. Se factura por segundo el uso de recursos de computación, GPUs y almacenamiento de Shuffle. El escalado a cero garantiza que nunca pagues por la capacidad inactiva.
Starting at
0,06 USD por DCU por hora
Nivel Premium y aceleradores:
Accede a Lightning Engine para disfrutar de un rendimiento hasta 4,9 veces más rápido o conecta GPUs de NVIDIA para cargas de trabajo de IA o aprendizaje automático.
Starting at
0,089 USD por DCU por hora
Nivel premium sin servidor
Clústeres
Pago por tiempo de funcionamiento del clúster. Se te facturarán los recursos subyacentes de Compute Engine más una tarifa de gestión fija. Aprovecha las máquinas virtuales de acceso puntual y el escalado a cero para optimizar los costes.
Starting at
0,01 USD por hora de vCPU
Cuota de gestión
Complemento Lightning Engine:
Ofrece un rendimiento revolucionario en tus clústeres. Disfruta de una ejecución hasta 4,9 veces más rápida que la de Spark de código abierto.
Starting at
0,0025 USD por hora de vCPU
Consulta más información sobre los precios de Managed Service for Apache Spark. Ver toda la información sobre los precios.
Caso de negocio
Casos de éxito de clientes

"Hemos visto cómo algunas de nuestros controles de calidad han pasado de durar 11 horas a solo unos minutos".
Michael Manos, director de tecnología de Dun & Bradstreet
La migración a Google Cloud ha ayudado a Dun & Bradstreet a aumentar significativamente la velocidad de los flujos de datos, reduciendo los procesos de comprobación de calidad de horas a minutos y disminuyendo a la mitad el tiempo necesario para publicar nuevos datos. Esta sólida base de datos también permite a Dun & Bradstreet aprovechar todo el potencial del ecosistema de Google Cloud, incluidas las tecnologías de datos e IA de vanguardia.
La diferencia de Managed Service for Apache Spark
Productividad sin operaciones con opciones de despliegue flexibles. Elige la ejecución sin servidor o los clústeres totalmente gestionados para eliminar la sobrecarga de la infraestructura y la carga del ajuste manual.
Desarrollo de IA agéntico. Agiliza tu flujo de trabajo con Gemini integrado en la extensión basada agéntica de VSCode o con el IDE que prefieras, junto con agentes de datos que automatizan la programación en PySpark, la gestión de datos y la resolución de problemas de tareas en un cuaderno unificado.
Rendimiento líder en el sector con la tecnología de Lightning Engine. Agiliza tus cargas de trabajo del proceso de extracción, transformación y carga (ETL) y ciencia de datos más exigentes hasta 4,9 veces y reduce significativamente tu coste total de propiedad









Preguntas frecuentes
Para simplificar tu experiencia, hemos unificado Dataproc y Google Cloud Serverless para Apache Spark en un solo producto: Managed Service for Apache Spark. Disfrutarás de las mismas funciones potentes, pero ahora solo tendrás que elegir el modelo de despliegue que prefieras (sin operaciones, sin servidor ni clústeres totalmente gestionados) desde una única interfaz unificada. Compara ambos modos de implementación en más profundidad.
Elige la opción sin servidor si quieres centrarte únicamente en el código y olvidarte de la gestión de la infraestructura. Es ideal para crear nuevos flujos de procesamiento y hacer análisis ad hoc. Elige clústeres gestionados si necesitas un control preciso, vas a migrar cargas de trabajo de Spark antiguas o en la nube, o de otro software de código abierto, o si necesitas clústeres persistentes con diversas herramientas de código abierto.
Lightning Engine es el motor de ejecución nativo y altamente optimizado de Google Cloud. Está creado con bibliotecas de C++ y optimiza cada capa, desde los conectores de almacenamiento de alto rendimiento hasta el almacenamiento en caché inteligente. Ofrece un rendimiento hasta 4,9 veces mejor que el de Spark estándar y una relación precio-rendimiento dos veces superior al de la alternativa principal de Spark de alta velocidad. Se integra a la perfección en tus implementaciones sin servidor o en clústeres sin necesidad de cambiar el código.
No. Si ejecutas cargas de trabajo de IA o aprendizaje automático, puedes usar nuestros entornos de ejecución de aprendizaje automático preconfigurados. Estos entornos vienen con bibliotecas comunes integradas, como PyTorch, XGBoost y scikit-learn, así como con controladores de GPU NVIDIA optimizados, lo que elimina la complejidad de la configuración.
Sí. Proporcionamos un entorno de Apache Spark 100 % compatible con el código abierto. Puedes ejecutar tu código de Spark sin modificaciones, lo que garantiza la portabilidad completa de las cargas de trabajo y evita la dependencia de un proveedor concreto.
Puedes integrar la IA Gemini directamente en el IDE que prefieras para que actúe como tu copiloto de IA. Te ayuda a escribir y depurar código de PySpark más rápido, mientras que Gemini Cloud Assist proporciona análisis automatizados de la causa principal y recomendaciones para solucionar problemas con tareas fallidas.
Por supuesto. Managed Service for Apache Spark es un motor de procesamiento fundamental para el lakehouse abierto de Google Cloud. Te permite procesar datos en formatos abiertos como Apache Iceberg directamente desde Cloud Storage, y se integra a la perfección con BigQuery y Knowledge Catalog para Apache Iceberg.
Los niveles estándar y premium solo se aplican a las implementaciones sin servidor. Standard es ideal para el procesamiento por lotes y un proceso de extracción, transformación y carga (ETL) rentables y de uso general. El nivel premium está diseñado para tus cargas de trabajo más exigentes, ya que ofrece un rendimiento 4,9 veces mayor en comparación con Apache Spark de código abierto con Lightning Engine y proporciona acceso a funciones de IA y aprendizaje automático con aceleración por GPU.