Google Cloud peut permettre des économies de 18 à 60 % par rapport à d'autres solutions alternatives basées sur le cloud pour Apache Spark. Téléchargez le rapport ESG.

Apache Spark sur Google Cloud

Exploitez tout le potentiel de Spark sur Google Cloud. Optez pour la simplicité du sans serveur ou le contrôle d'un cluster, avec un traitement à grande vitesse, l'assistance de l'IA et une connectivité fluide à une lakehouse ouverte.

Transformation des données Dun & Bradstreet

Dun & Bradstreet réduit les workflows de données à quelques minutes et améliore les temps de réponse des produits de 60 %

2:46

Avantages

Augmentez la productivité des développeurs et obtenez plus rapidement des insights sur les données

Spark fluide pour tous les utilisateurs de données

Exécutez facilement Spark avec BigQuery, Vertex AI et des IDE à l'aide de clusters sans serveur ou gérés. Évitez les intégrations personnalisées, simplifiez les workflows ETL en ML et boostez la productivité avec Gemini pour le code et les opérations.

Simplicité opérationnelle avec Spark sans serveur

Google Cloud Serverless pour Apache Spark offre un autoscaling instantané et une configuration quasi nulle. Multipliez les performances des requêtes par 4,3* avec Lightning Engine (preview). Dataplex Universal Catalog unifie les métadonnées et simplifie les opérations.

Exécutez Spark comme vous le souhaitez

Chaque entreprise a des besoins différents. Google Cloud vous offre la flexibilité de choisir entre une infrastructure sans serveur, des clusters gérés et des clusters de calcul pour vos charges de travail Spark.

Principales fonctionnalités

Des méthodes efficaces pour exécuter Spark sur Google Cloud

Google Cloud Serverless pour Apache Spark

Utiliser Google Cloud Serverless pour Apache Spark pour booster la productivité et les performances avec Lightning Engine* et Gemini Cette expérience est un environnement profondément intégré qui permet d'exécuter des charges de travail Apache Spark et SQL directement depuis BigQuery. La solution offre une sécurité unifiée, des métadonnées d'exécution à l'aide du metastore BigLake et une gouvernance via le catalogue universel Dataplex. Maximisez la productivité grâce à la CI/CD intégrée, à Gemini dans les notebooks, et éliminez la gestion des clusters Apache Spark.

* Les requêtes sont dérivées de la norme TPC-DS et de la norme TPC-H. Elles ne sont donc pas comparables aux résultats publiés pour la norme TPC-DS et la norme TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification de la norme TPC-DS et de la norme TPC-H.

Clusters Spark, Hadoop et OSS gérés avec Dataproc

Dataproc est un service entièrement géré et hautement évolutif qui vous permet de déployer et d'exploiter Spark, Hadoop et un vaste écosystème de plus de 30 outils Open Source dédiés. Son intégration aux produits et services Google Cloud plus larges, y compris Lightning Engine pour Dataproc sur Google Compute Engine (niveau premium), en fait la solution idéale pour la modernisation des lacs de données, les pipelines ETL efficaces et les initiatives de science des données sécurisées à grande échelle, dans lesquelles le contrôle des clusters est primordial.

Data science avec Apache Spark sur Google Cloud

Que vous préfériez la simplicité sans opérations de Google Cloud Serverless pour Apache Spark ou le contrôle des clusters Dataproc gérés, vous pouvez accélérer l'ensemble du cycle de vie du machine learning. Profitez de ces avantages :

Intégration parfaite : connectez-vous facilement à BigQuery pour accéder aux données et à Vertex AI pour le MLOps, et créez des pipelines de science des données de bout en bout.
Productivité des développeurs : utilisez Gemini pour obtenir des insights sur le codage et une assistance dans des environnements de notebook tels que BigQuery Studio et Vertex AI Workbench.
Préparation à l'IA/au ML : utilisez les bibliothèques de ML préemballées et l'accélération par GPU disponibles avec les clusters Spark et Dataproc sans serveur pour les tâches d'entraînement et d'inférence exigeantes.
Itérations plus rapides : concentrez-vous sur le développement et l'expérimentation, quel que soit votre choix.

Spark via Vertex AI

Développez et exploitez Spark pour la data science en toute simplicité avec Vertex AI. Utilisez Spark depuis Vertex AI Workbench pour un développement interactif avec sécurité intégrée et assistance Gemini. Intégrez le traitement Spark à Vertex AI Pipelines pour des opérations MLOps robustes.

Compatibilité avec les formats de table Open Source pour votre lakehouse

Les offres Spark de Google Cloud offrent une compatibilité robuste avec des formats Open Source tels qu'Apache Iceberg, Delta Lake et Hudi. Utilisez BigLake Metastore ou Dataproc Metastore pour une gestion unifiée des métadonnées dans tous les formats, et bénéficiez d'une architecture de lakehouse ouverte dans laquelle vous pouvez traiter les données avec le moteur Spark de votre choix.

Partenaires