Apache Spark en Google Cloud

La nueva forma de usar Spark de forma más fácil, inteligente y rápida.

Ejecuta cargas de trabajo de Apache Spark en Google Cloud con menos sobrecarga operativa, más asistencia basada en IA y una mejor relación calidad‑precio. Céntrate en tu código, no en los clústeres.


Ventajas

Una mejor experiencia para Apache Spark en Google Cloud

Más fácil: elimina la carga operativa de Spark

Elige entre Google Cloud Serverless para Apache Spark, que no requiere operaciones, o los clústeres gestionados de Dataproc. Ambos automatizan la complejidad de la infraestructura para que puedas acelerar el ciclo de vida de desarrollo.

Comparar ambas opciones

Más inteligente: desarrollo de Spark asistido por IA

Agiliza todo tu flujo de trabajo con Gemini en Dataproc y Google Cloud Serverless para Apache Spark. Recibe asistencia basada en Gemini para generar y depurar código, así como para solucionar problemas con tareas fallidas. 

Más información sobre Gemini Code Assist

Más rápido: acelera el rendimiento de Spark

Consigue automáticamente una relación precio-rendimiento líder en el sector. Para tus trabajos más exigentes, consigue un rendimiento 4,3 veces más rápido con Lightning Engine. Esto reduce el TCO y agiliza la obtención de información valiosa.

Descubrir Lightning Engine

Características principales

Elige la versión de Spark adecuada para tu carga de trabajo

Elige entre Serverless para Apache Spark, que ofrece sencillez sin operaciones, o Dataproc, que permite gestionar clústeres con personalizaciones avanzadas.

Consulta la guía de decisiones

Google Cloud Serverless para Apache Spark

Céntrate únicamente en tu código y acelera el desarrollo. Con niveles para el procesamiento por lotes rentable y la IA o el aprendizaje automático de alto rendimiento, es ideal para nuevos flujos de procesamiento de Apache Spark, análisis interactivos y cargas de trabajo con una demanda impredecible en las que se prefiere un modelo NoOps.

Ideal para: científicos de datos e ingenieros de aprendizaje automático, consultas ad hoc, nuevas aplicaciones y productividad de los desarrolladores.

Descubre Spark sin servidor

Dataproc

Consigue el máximo control sobre tu entorno de clústeres. Es perfecto para migrar cargas de trabajo de Apache Hadoop o Spark, ejecutar clústeres persistentes de larga duración o usar un ecosistema de código abierto diverso.

Ideal para: ingeniería y operaciones empresariales, migraciones on-premise, tareas de larga duración y personalización exhaustiva.

Descubre Dataproc

Documentación

Documentación

Tutorial

Ejecuta tu primera tarea de Spark sin servidor

Sigue esta guía de inicio rápido para experimentar la velocidad y la sencillez de Spark sin servidor. Aprende a enviar una tarea por lotes de PySpark mediante Google Cloud CLI.

Tutorial

Crea un clúster gestionado de Dataproc

En este tutorial se explica cómo crear un clúster de Dataproc mediante la consola de Google Cloud. Aprende a configurar y aprovisionar un entorno gestionado para tus cargas de trabajo de Spark y Hadoop.

Best Practice

Unifica tus analíticas: SQL y Spark en una sola copia de datos

Deja de tener que elegir entre la potencia de SQL y la flexibilidad de Spark. BigLake te permite usar ambos motores en los mismos datos gobernados. Es una experiencia unificada que te permite usar la mejor herramienta para cada tarea.

Best Practice

Agiliza todo el ciclo de vida de la IA y el aprendizaje automático

Pasa de la preparación de datos al entrenamiento de modelos y la inferencia más rápido. Nuestros niveles Premium están diseñados para la IA y el aprendizaje automático, lo que te permite usar entornos de ejecución de aprendizaje automático preconfigurados con compatibilidad con GPU integrada, como NVIDIA RAPIDS, para eliminar la complejidad de la configuración.

¿No encuentras lo que buscas?


Apache Spark es una marca de The Apache Software Foundation.

** Las consultas se derivan del estándar TPC-DS y del estándar TPC-H, por lo que no se pueden comparar con los resultados publicados del estándar TPC-DS y del estándar TPC-H, ya que estas ejecuciones no cumplen todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.

Ve un paso más allá

Cuéntanos lo que buscas. Un experto de Google Cloud te ayudará a encontrar la mejor solución.

Google Cloud