Lightning Engine ofrece un rendimiento hasta 4,9 veces más rápido que Spark de código abierto y una relación precio-rendimiento hasta 2 veces mejor que la principal alternativa de Spark de alta velocidad.

Managed Service for Apache Spark (anteriormente, Dataproc)

La nueva forma de usar Spark de forma más fácil, inteligente y rápida.

Ejecuta cargas de trabajo de Apache Spark con Spark sin servidor y sin operaciones o con clústeres gestionados. Agiliza el desarrollo con flujos de trabajo de IA basados en agentes y mejora el rendimiento con Lightning Engine.

Los nuevos clientes reciben 300 USD en crédito sin coste para probar Managed Service for Apache Spark y otros productos de Google Cloud.

Apache Spark es una marca de The Apache Software Foundation.

Características

Rendimiento líder en el sector con Lightning Engine

Acelera las cargas de trabajo de ETL y SQL a gran escala hasta 4,9 veces más rápido que Apache Spark de código abierto sin tener que cambiar ni una línea de código. Lightning Engine utiliza un motor de ejecución vectorizado nativo de C++, almacenamiento en caché inteligente y un intercambio de columnas optimizado. Combina esta función con el ajuste automático inteligente de Spark para eliminar el impuesto de ajuste manual, optimizar la memoria y evitar errores de falta de memoria automáticamente.

*Las consultas se derivan del estándar TPC-DS y del estándar TPC-H

Diagrama de la arquitectura de Lightning Engine

Conoce los detalles técnicos y la experiencia de Lowe's con Lightning Engine

Interoperabilidad flexible de lakehouse

Crea una arquitectura de lakehouse abierto que garantice la independencia del motor. Procesa datos en formatos abiertos como Apache Iceberg directamente desde Google Cloud Storage. Se integra a la perfección con BigQuery y Knowledge Catalog (antes Dataplex) para ofrecer analíticas y gobierno de datos unificados, lo que garantiza una interoperabilidad real entre varios motores sin capas de traducción.

117 % de retorno de inversión desbloqueado y aceleración de la innovación en IA con un data lakehouse en Google Cloud

Descargar el estudio

Experiencia de desarrollo unificada basada en IA

Elimina la acumulación de tareas pendientes con agentes de datos que toman medidas, no solo responden preguntas. Agiliza tu flujo de trabajo usando Gemini integrado en la extensión agéntica de VSCode para aumentar la productividad de las cargas de trabajo de Spark desde el desarrollo hasta la producción, o bien usa el IDE que prefieras. Automatiza la limpieza de datos brutos y la programación en PySpark con los agentes de Data Cloud listos para usar, o bien utiliza el kit de agentes de datos para gestionar conjuntos de datos y ejecutar consultas directamente desde tu IDE. Soluciona automáticamente los problemas de las tareas de Spark con Gemini Cloud Assist. Combina SQL y Spark en un solo cuaderno unificado basado en IA.

Agentes autónomos: la siguiente evolución de tus datos

Leer la guía

Preparado para la IA y el aprendizaje automático a nivel de empresa

Crea y pon en funcionamiento todo tu ciclo de vida de aprendizaje automático. Acelera el entrenamiento y la inferencia de los modelos con la compatibilidad con GPUs, la tecnología de NVIDIA RAPIDS y los entornos de ejecución de aprendizaje automático preconfigurados para PyTorch y XGBoost. Intégralo con el ecosistema de IA de Google Cloud para orquestar MLOps de principio a fin y gestionar recursos con la integración del registro de modelos de Gemini Enterprise Agent Platform.

Una guía práctica de ciencia de datos con Google Cloud

Descargar el libro electrónico

Migraciones seguras, escalables y fluidas

Se integra a la perfección con tu estrategia de seguridad mediante IAM, Controles de Servicio de VPC y Kerberos. Migra fácilmente cargas de trabajo de Spark en la nube y heredadas con las plantillas y las herramientas de Managed Service for Apache Spark. Migra cargas de trabajo mediante lift-and-shift con compatibilidad con Spark 2.x hasta Spark 4.0 sin tener que refactorizar el código de inmediato.

Una guía práctica sobre la migración de data lakes

La modernización de tu data lake empieza aquí

Eficiencia multicliente y controles de FinOps

Maximiza el uso de los recursos y reduce los costes de inactividad. Implementa clústeres de Spark multicliente que permitan que hasta 800 usuarios compartan recursos de computación manteniendo un estricto aislamiento de los datos y del entorno. Controla tu factura con funciones de escalado a cero, facturación por segundo y compatibilidad con máquinas virtuales de acceso puntual para cargas de trabajo flexibles.

Ecosistema abierto y flexible

Evita depender de proveedores. Aunque están optimizados para Apache Spark, nuestros clústeres gestionados admiten más de 30 herramientas de código abierto, como Apache Hadoop, Flink y Trino. Se integra a la perfección con orquestadores como Managed Service for Apache Airflow y se puede ampliar con Kubernetes y Docker para ofrecer la máxima flexibilidad.

Opciones de implementación

Opciones de implementación	Elige entre el control detallado de los clústeres gestionados o la sencillez sin operaciones de una experiencia sin servidor para encontrar la mejor opción para tu carga de trabajo.
Modo de despliegue:	Descripción	Ideal para:	Por lo que pagas:
Sin servidor	Tareas de Spark como servicio. Managed Spark, infraestructura gestionada.	Nuevos flujos de procesamiento, análisis interactivos y cargas de trabajo con picos de demanda en los que se prefiere un modelo de operaciones cero y pago por tarea.	Tiempo de ejecución de la tarea
Clústeres	Clústeres de Spark como servicio. Managed Spark, tu infraestructura	Migrar cargas de trabajo antiguas de Spark o de OSS, ejecutar clústeres persistentes o necesitar una personalización profunda de código abierto.	Tiempo de funcionamiento del clúster

Ver una comparación detallada

Opciones de implementación

Elige entre el control detallado de los clústeres gestionados o la sencillez sin operaciones de una experiencia sin servidor para encontrar la mejor opción para tu carga de trabajo.

Sin servidor

Descripción

Tareas de Spark como servicio.

Managed Spark, infraestructura gestionada.

Ideal para:

Nuevos flujos de procesamiento, análisis interactivos y cargas de trabajo con picos de demanda en los que se prefiere un modelo de operaciones cero y pago por tarea.

Por lo que pagas:

Tiempo de ejecución de la tarea

Clústeres

Descripción

Clústeres de Spark como servicio.

Managed Spark, tu infraestructura

Ideal para:

Migrar cargas de trabajo antiguas de Spark o de OSS, ejecutar clústeres persistentes o necesitar una personalización profunda de código abierto.

Por lo que pagas:

Tiempo de funcionamiento del clúster

Ver una comparación detallada

Cómo funciona

Simplifica Spark con clústeres gestionados o sin servidor y sin operaciones. Trabaja de forma más inteligente con Gemini en tu IDE favorito, usando la IA agentiva para acelerar el desarrollo de PySpark. Ejecuta tareas más rápido con Lightning Engine y mantén una gobernanza unificada en todo tu lakehouse abierto con Knowledge Catalog.

Usos habituales

Ingeniería de datos a escala

Flujos de ETL automatizados

Crea flujos de procesamiento de ETL de Spark robustos y basados en eventos que se escalen automáticamente bajo demanda. Aprovecha la ejecución sin servidor para cargas de trabajo irregulares o los clústeres gestionados para trabajos persistentes. Usa plantillas de flujo de trabajo para automatizar tus tareas de procesamiento de datos más importantes de principio a fin.

Diseño lógico de un flujo de procesamiento de data lake

Tutoriales, guías de inicio rápido y experimentos

Flujos de ETL automatizados

Crea flujos de procesamiento de ETL de Spark robustos y basados en eventos que se escalen automáticamente bajo demanda. Aprovecha la ejecución sin servidor para cargas de trabajo irregulares o los clústeres gestionados para trabajos persistentes. Usa plantillas de flujo de trabajo para automatizar tus tareas de procesamiento de datos más importantes de principio a fin.

Diseño lógico de un flujo de procesamiento de data lake

Ciencia de datos y aprendizaje automático

Ciencia de datos interactiva

Permite a los científicos de datos explorar datos e iterar en modelos de aprendizaje automático de Spark. Unifica SQL y Spark con Gemini mediante la extensión agéntica de VSCode o el IDE que prefieras, pasando sin problemas de la exploración de datos a la creación de modelos con PySpark mediante la ejecución sin servidor. Asigna GPUs con un solo comando.

Imagen de la pila de ciencia de datos de Google Cloud

Tutoriales, guías de inicio rápido y experimentos

Ciencia de datos interactiva

Permite a los científicos de datos explorar datos e iterar en modelos de aprendizaje automático de Spark. Unifica SQL y Spark con Gemini mediante la extensión agéntica de VSCode o el IDE que prefieras, pasando sin problemas de la exploración de datos a la creación de modelos con PySpark mediante la ejecución sin servidor. Asigna GPUs con un solo comando.

Modernización de lakehouse

Data lakehouse abierto

Usa Managed Service for Apache Spark como motor de procesamiento para tu data lakehouse moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos. Se integra con BigQuery y Lakehouse para Apache Iceberg para ofrecer una plataforma de analíticas unificada y con varios motores.

Pila de lakehouse abierto en Google Cloud

Tutoriales, guías de inicio rápido y experimentos

Data lakehouse abierto

Usa Managed Service for Apache Spark como motor de procesamiento para tu data lakehouse moderno. Procesa datos en formatos abiertos como Apache Iceberg directamente desde tu data lake, lo que elimina los silos de datos. Se integra con BigQuery y Lakehouse para Apache Iceberg para ofrecer una plataforma de analíticas unificada y con varios motores.

Precios

Cómo funcionan los precios de Managed Service for Apache Spark	El precio depende del modelo de despliegue que se seleccione. En el caso de la computación sin servidor, se factura por ejecución de tarea, mientras que en el caso de los clústeres, se factura por la computación subyacente y el tiempo de funcionamiento.
Modo de despliegue:	¿Qué pagas?:	Importe que se te cobra:
Sin servidor	De este modo, pagas únicamente por lo que utilizas. Se factura por segundo el uso de recursos de computación, GPUs y almacenamiento de Shuffle. El escalado a cero garantiza que nunca pagues por la capacidad inactiva.	Desde 0,06 USD por DCU por hora
Sin servidor	Nivel Premium y aceleradores: Accede a Lightning Engine para disfrutar de un rendimiento hasta 4,9 veces más rápido o conecta GPUs de NVIDIA para cargas de trabajo de IA o aprendizaje automático.	Desde 0,089 USD por DCU por hora Nivel premium sin servidor
Clústeres	Pago por tiempo de funcionamiento del clúster. Se te facturarán los recursos subyacentes de Compute Engine más una tarifa de gestión fija. Aprovecha las máquinas virtuales de acceso puntual y el escalado a cero para optimizar los costes.	Desde 0,01 USD por hora de vCPU Cuota de gestión
Clústeres	Complemento Lightning Engine: Ofrece un rendimiento revolucionario en tus clústeres. Disfruta de una ejecución hasta 4,9 veces más rápida que la de Spark de código abierto.	Desde 0,0025 USD por hora de vCPU

Consulta más información sobre los precios de Managed Service for Apache Spark. Ver toda la información sobre los precios.

Cómo funcionan los precios de Managed Service for Apache Spark

El precio depende del modelo de despliegue que se seleccione. En el caso de la computación sin servidor, se factura por ejecución de tarea, mientras que en el caso de los clústeres, se factura por la computación subyacente y el tiempo de funcionamiento.

Sin servidor

¿Qué pagas?:

De este modo, pagas únicamente por lo que utilizas. Se factura por segundo el uso de recursos de computación, GPUs y almacenamiento de Shuffle. El escalado a cero garantiza que nunca pagues por la capacidad inactiva.

Importe que se te cobra:

Starting at

0,06 USD por DCU por hora

Nivel Premium y aceleradores:

Accede a Lightning Engine para disfrutar de un rendimiento hasta 4,9 veces más rápido o conecta GPUs de NVIDIA para cargas de trabajo de IA o aprendizaje automático.

¿Qué pagas?:

Starting at

0,089 USD por DCU por hora

Nivel premium sin servidor

Clústeres

¿Qué pagas?:

Pago por tiempo de funcionamiento del clúster. Se te facturarán los recursos subyacentes de Compute Engine más una tarifa de gestión fija. Aprovecha las máquinas virtuales de acceso puntual y el escalado a cero para optimizar los costes.

Importe que se te cobra:

Starting at

0,01 USD por hora de vCPU

Cuota de gestión

Complemento Lightning Engine:

Ofrece un rendimiento revolucionario en tus clústeres. Disfruta de una ejecución hasta 4,9 veces más rápida que la de Spark de código abierto.

¿Qué pagas?:

Starting at

0,0025 USD por hora de vCPU

Consulta más información sobre los precios de Managed Service for Apache Spark. Ver toda la información sobre los precios.

Calculadora de precios

Calcula tus costes mensuales, incluyendo los precios y las tarifas específicos de cada región.

Presupuesto personalizado

Ponte en contacto con nuestro equipo de Ventas para solicitar un presupuesto personalizado para tu organización.

Empieza tu prueba de concepto

300 USD en crédito para los nuevos clientes

¿Tienes un proyecto de gran envergadura?

Crear un clúster

Ejecuta una tarea por lotes sin servidor

Elige la implementación adecuada

Caso de negocio

Casos de éxito de clientes

"Hemos visto cómo algunas de nuestros controles de calidad han pasado de durar 11 horas a solo unos minutos".

Michael Manos, director de tecnología de Dun & Bradstreet

La migración a Google Cloud ha ayudado a Dun & Bradstreet a aumentar significativamente la velocidad de los flujos de datos, reduciendo los procesos de comprobación de calidad de horas a minutos y disminuyendo a la mitad el tiempo necesario para publicar nuevos datos. Esta sólida base de datos también permite a Dun & Bradstreet aprovechar todo el potencial del ecosistema de Google Cloud, incluidas las tecnologías de datos e IA de vanguardia.

La diferencia de Managed Service for Apache Spark

Productividad sin operaciones con opciones de despliegue flexibles. Elige la ejecución sin servidor o los clústeres totalmente gestionados para eliminar la sobrecarga de la infraestructura y la carga del ajuste manual.

Desarrollo de IA agéntico. Agiliza tu flujo de trabajo con Gemini integrado en la extensión basada agéntica de VSCode o con el IDE que prefieras, junto con agentes de datos que automatizan la programación en PySpark, la gestión de datos y la resolución de problemas de tareas en un cuaderno unificado.

Rendimiento líder en el sector con la tecnología de Lightning Engine. Agiliza tus cargas de trabajo del proceso de extracción, transformación y carga (ETL) y ciencia de datos más exigentes hasta 4,9 veces y reduce significativamente tu coste total de propiedad

Recursos adicionales:

Preguntas frecuentes

¿Qué ha pasado con Dataproc y Spark sin servidor?

Para simplificar tu experiencia, hemos unificado Dataproc y Google Cloud Serverless para Apache Spark en un solo producto: Managed Service for Apache Spark. Disfrutarás de las mismas funciones potentes, pero ahora solo tendrás que elegir el modelo de despliegue que prefieras (sin operaciones, sin servidor ni clústeres totalmente gestionados) desde una única interfaz unificada. Compara ambos modos de implementación en más profundidad.

¿Cuándo debo elegir un entorno sin servidor en lugar de clústeres gestionados?

Elige la opción sin servidor si quieres centrarte únicamente en el código y olvidarte de la gestión de la infraestructura. Es ideal para crear nuevos flujos de procesamiento y hacer análisis ad hoc. Elige clústeres gestionados si necesitas un control preciso, vas a migrar cargas de trabajo de Spark antiguas o en la nube, o de otro software de código abierto, o si necesitas clústeres persistentes con diversas herramientas de código abierto.

¿Qué es Lightning Engine?

Lightning Engine es el motor de ejecución nativo y altamente optimizado de Google Cloud. Está creado con bibliotecas de C++ y optimiza cada capa, desde los conectores de almacenamiento de alto rendimiento hasta el almacenamiento en caché inteligente. Ofrece un rendimiento hasta 4,9 veces mejor que el de Spark estándar y una relación precio-rendimiento dos veces superior al de la alternativa principal de Spark de alta velocidad. Se integra a la perfección en tus implementaciones sin servidor o en clústeres sin necesidad de cambiar el código.

¿Tengo que instalar mis propias bibliotecas de aprendizaje automático, como PyTorch?

No. Si ejecutas cargas de trabajo de IA o aprendizaje automático, puedes usar nuestros entornos de ejecución de aprendizaje automático preconfigurados. Estos entornos vienen con bibliotecas comunes integradas, como PyTorch, XGBoost y scikit-learn, así como con controladores de GPU NVIDIA optimizados, lo que elimina la complejidad de la configuración.

¿Es Managed Service for Apache Spark totalmente compatible con el código abierto?

Sí. Proporcionamos un entorno de Apache Spark 100 % compatible con el código abierto. Puedes ejecutar tu código de Spark sin modificaciones, lo que garantiza la portabilidad completa de las cargas de trabajo y evita la dependencia de un proveedor concreto.

¿Cómo ayuda la IA de Gemini en el desarrollo de Spark?

Puedes integrar la IA Gemini directamente en el IDE que prefieras para que actúe como tu copiloto de IA. Te ayuda a escribir y depurar código de PySpark más rápido, mientras que Gemini Cloud Assist proporciona análisis automatizados de la causa principal y recomendaciones para solucionar problemas con tareas fallidas.

¿Puedo usar este servicio para crear un data lakehouse abierto?

Por supuesto. Managed Service for Apache Spark es un motor de procesamiento fundamental para el lakehouse abierto de Google Cloud. Te permite procesar datos en formatos abiertos como Apache Iceberg directamente desde Cloud Storage, y se integra a la perfección con BigQuery y Knowledge Catalog para Apache Iceberg.

¿Cómo funcionan los niveles de precios Estándar y Premium?

Los niveles estándar y premium solo se aplican a las implementaciones sin servidor. Standard es ideal para el procesamiento por lotes y un proceso de extracción, transformación y carga (ETL) rentables y de uso general. El nivel premium está diseñado para tus cargas de trabajo más exigentes, ya que ofrece un rendimiento 4,9 veces mayor en comparación con Apache Spark de código abierto con Lightning Engine y proporciona acceso a funciones de IA y aprendizaje automático con aceleración por GPU.

Managed Service for Apache Spark (anteriormente, Dataproc)

La nueva forma de usar Spark de forma más fácil, inteligente y rápida.

Aspectos destacados del producto

Rendimiento líder en el sector con Lightning Engine

Interoperabilidad flexible de lakehouse

Experiencia de desarrollo unificada basada en IA

Preparado para la IA y el aprendizaje automático a nivel de empresa

Migraciones seguras, escalables y fluidas

Eficiencia multicliente y controles de FinOps

Ecosistema abierto y flexible

Ingeniería de datos a escala

Flujos de ETL automatizados

Tutoriales, guías de inicio rápido y experimentos

Flujos de ETL automatizados

Ciencia de datos y aprendizaje automático

Ciencia de datos interactiva

Tutoriales, guías de inicio rápido y experimentos

Ciencia de datos interactiva

Modernización de lakehouse

Data lakehouse abierto

Tutoriales, guías de inicio rápido y experimentos

Data lakehouse abierto

Calculadora de precios

Presupuesto personalizado

Empieza tu prueba de concepto

300 USD en crédito para los nuevos clientes

¿Tienes un proyecto de gran envergadura?

Crear un clúster

Ejecuta una tarea por lotes sin servidor

Elige la implementación adecuada

Otros casos de éxito:

Recursos adicionales:

¿Qué ha pasado con Dataproc y Spark sin servidor?

¿Cuándo debo elegir un entorno sin servidor en lugar de clústeres gestionados?

¿Qué es Lightning Engine?

¿Tengo que instalar mis propias bibliotecas de aprendizaje automático, como PyTorch?

¿Es Managed Service for Apache Spark totalmente compatible con el código abierto?

¿Cómo ayuda la IA de Gemini en el desarrollo de Spark?

¿Puedo usar este servicio para crear un data lakehouse abierto?

¿Cómo funcionan los niveles de precios Estándar y Premium?