Google Cloud puede ofrecer un ahorro de entre un 18 % y un 60 % en comparación con otras alternativas de Apache Spark basadas en la nube. Descargar informe de ESG

Apache Spark en Google Cloud

Saca el máximo partido a Spark en Google Cloud. Elige entre la comodidad de un entorno sin servidor o el control de un clúster, con la ayuda de un procesamiento de alta velocidad, la asistencia de la IA y una conectividad fluida de lakehouse abierto.

Transformación de datos de Dun & Bradstreet

Dun & Bradstreet reduce los flujos de trabajo de datos a minutos y aumentan los tiempos de respuesta de los productos en un 60 %

2:46

Ventajas

Aumenta la productividad de los desarrolladores y obtén datos valiosos más rápido

Spark, perfecto para todos los usuarios de datos

Ejecuta Spark fácilmente con BigQuery, Vertex AI e IDEs que utilicen clústeres sin servidor o gestionados. Olvídate de las integraciones personalizadas, optimiza los flujos de trabajo de ETL a ML y aumenta la productividad con Gemini para el código y las operaciones.

Sencillez operativa con Spark sin servidor

Google Cloud sin servidor para Apache Spark ofrece autoescalado instantáneo y casi cero configuración. Mejora el rendimiento de las consultas en 4,3 veces* con Motor Rápido (versión preliminar). Dataplex Universal Catalog unifica los metadatos y simplifica las operaciones.

Ejecuta Spark a tu manera

No existe un enfoque único que satisfaga las necesidades de todas las empresas. Google Cloud te ofrece la flexibilidad de elegir entre clústeres sin servidor, clústeres gestionados y clústeres de computación para tus cargas de trabajo de Spark.

Características principales

Formas eficaces de ejecutar Spark en Google Cloud

Google Cloud Serverless para Apache Spark

Usa Google Cloud Serverless para Apache Spark para aumentar la productividad y el rendimiento con Lightning Engine* y Gemini Esta experiencia es un entorno muy integrado para ejecutar cargas de trabajo de Apache Spark y SQL directamente desde BigQuery. Ofrece seguridad unificada, metadatos de tiempo de ejecución mediante el almacén de metadatos de BigLake y gobernanza a través de Dataplex Universal Catalog. Maximiza la productividad con CI/CD integrado, Gemini en cuadernos y elimina la gestión de clústeres de Apache Spark.

* Las consultas se derivan del estándar TPC-DS y del estándar TPC-H, por lo que no se pueden comparar con los resultados publicados del estándar TPC-DS y del estándar TPC-H, ya que estas ejecuciones no cumplen todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.

Clústeres de Spark, Hadoop y OSS gestionados con Dataproc

Dataproc es un servicio totalmente gestionado y muy escalable para desplegar y operar Spark, Hadoop y un amplio ecosistema de más de 30 herramientas de código abierto. Su integración con los productos y servicios más amplios de Google Cloud, como Lightning Engine para Dataproc en Google Compute Engine (nivel premium), lo convierten en la solución ideal para modernizar los data lakes, crear flujos de procesamiento ETL eficientes y desarrollar iniciativas de ciencia de datos seguras y a gran escala en las que el control de los clústeres sea primordial.

Ciencia de datos con Apache Spark en Google Cloud

Tanto si prefieres la sencillez de Google Cloud sin servidor para Apache Spark como el control de los clústeres gestionados de Dataproc, puedes agilizar todo el ciclo de vida del aprendizaje automático. Disfruta de las siguientes ventajas:

Integración perfecta: conéctate fácilmente con BigQuery para acceder a los datos y con Vertex AI para MLOps, y crea flujos de procesamiento de ciencia de datos de extremo a extremo.
Productividad de los desarrolladores: usa Gemini para obtener estadísticas y asistencia de programación en entornos de cuadernos como BigQuery Studio y Vertex AI Workbench.
Preparación para la IA y el aprendizaje automático: utiliza bibliotecas de aprendizaje automático preempaquetadas y aceleración con GPU disponibles en clústeres sin servidor de Spark y Dataproc para realizar tareas exigentes de entrenamiento e inferencia.
Iteración más rápida: céntrate en el desarrollo y la experimentación, independientemente de lo que elijas.

Spark mediante Vertex AI

Desarrolla y ejecuta Spark para la ciencia de datos de forma fluida con Vertex AI. Usa Spark desde Vertex AI Workbench para desarrollar de forma interactiva con seguridad integrada y la asistencia de Gemini. Integra el procesamiento de Spark en Vertex AI Pipelines para disfrutar de un MLOps sólido.

Compatibilidad con el formato de la tabla de código abierto en tu lakehouse

Las soluciones de Spark de Google Cloud ofrecen una compatibilidad sólida con formatos de software libre, como Apache Iceberg, Delta Lake y Hudi. Usa el almacén de metadatos de BigLake o el almacén de metadatos de Dataproc para gestionar metadatos de forma unificada en todos los formatos y crear una arquitectura de lakehouse abierta en la que puedas procesar datos con el motor de Spark que prefieras.

Partners