Exploitez tout le potentiel de Spark sur Google Cloud. Optez pour la simplicité du sans serveur ou le contrôle d'un cluster, avec un traitement à grande vitesse, l'assistance de l'IA et une connectivité fluide à une lakehouse ouverte.
Avantages
Spark fluide pour tous les utilisateurs de données
Simplicité opérationnelle avec Spark sans serveur
Google Cloud Serverless pour Apache Spark offre un autoscaling instantané et une configuration quasi nulle. Multipliez les performances des requêtes par 4,3* avec Lightning Engine (preview). Dataplex Universal Catalog unifie les métadonnées et simplifie les opérations.
Exécutez Spark comme vous le souhaitez
Chaque entreprise a des besoins différents. Google Cloud vous offre la flexibilité de choisir entre une infrastructure sans serveur, des clusters gérés et des clusters de calcul pour vos charges de travail Spark.
Principales fonctionnalités
Utiliser Google Cloud Serverless pour Apache Spark pour booster la productivité et les performances avec Lightning Engine* et Gemini Cette expérience est un environnement profondément intégré qui permet d'exécuter des charges de travail Apache Spark et SQL directement depuis BigQuery. La solution offre une sécurité unifiée, des métadonnées d'exécution à l'aide du metastore BigLake et une gouvernance via le catalogue universel Dataplex. Maximisez la productivité grâce à la CI/CD intégrée, à Gemini dans les notebooks, et éliminez la gestion des clusters Apache Spark.
* Les requêtes sont dérivées de la norme TPC-DS et de la norme TPC-H. Elles ne sont donc pas comparables aux résultats publiés pour la norme TPC-DS et la norme TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification de la norme TPC-DS et de la norme TPC-H.
Dataproc est un service entièrement géré et hautement évolutif qui vous permet de déployer et d'exploiter Spark, Hadoop et un vaste écosystème de plus de 30 outils Open Source dédiés. Son intégration aux produits et services Google Cloud plus larges, y compris Lightning Engine pour Dataproc sur Google Compute Engine (niveau premium), en fait la solution idéale pour la modernisation des lacs de données, les pipelines ETL efficaces et les initiatives de science des données sécurisées à grande échelle, dans lesquelles le contrôle des clusters est primordial.
Que vous préfériez la simplicité sans opérations de Google Cloud Serverless pour Apache Spark ou le contrôle des clusters Dataproc gérés, vous pouvez accélérer l'ensemble du cycle de vie du machine learning. Profitez de ces avantages :
Développez et exploitez Spark pour la data science en toute simplicité avec Vertex AI. Utilisez Spark depuis Vertex AI Workbench pour un développement interactif avec sécurité intégrée et assistance Gemini. Intégrez le traitement Spark à Vertex AI Pipelines pour des opérations MLOps robustes.
Les offres Spark de Google Cloud offrent une compatibilité robuste avec des formats Open Source tels qu'Apache Iceberg, Delta Lake et Hudi. Utilisez BigLake Metastore ou Dataproc Metastore pour une gestion unifiée des métadonnées dans tous les formats, et bénéficiez d'une architecture de lakehouse ouverte dans laquelle vous pouvez traiter les données avec le moteur Spark de votre choix.
Apache Spark est une marque de l'Apache Software Foundation.
Présentez-nous votre objectif. Un de nos experts Google Cloud vous aidera à trouver la solution la plus adaptée.