Apache Spark est un moteur d'analyse unifié conçu pour le traitement des données à grande échelle avec des modules intégrés pour SQL, le traitement en flux continu, le machine learning et le traitement graphique. Spark peut être exécuté sur Kubernetes, des clusters autonomes ou de façon native dans le cloud. Par ailleurs, il peut s'appliquer à des sources de données diverses. Il fournit des API riches en Java, Scala, Python (PySpark) et R, ce qui le rend accessible à un large éventail de développeurs et de data scientists.
Sur Google Cloud, Apache Spark devient une plate-forme facilitant la transition des données vers l'IA avec Managed Service pour Apache Spark. En exploitant les clusters gérés ou les options Spark sans serveur, ainsi que les améliorations révolutionnaires des performances comme Lightning Engine, Google Cloud élimine les coûts d'optimisation associés aux déploiements Spark traditionnels. Les intégrations étroites à une plate-forme unifiée de données et d'IA permettent aux utilisateurs de passer de données brutes à des actions optimisées par l'IA plus rapidement que jamais.
L'écosystème Spark inclut cinq composants clés :
L'écosystème Spark inclut cinq composants clés, chacun étant amélioré par l'infrastructure de Google Cloud :
Vitesse
Le traitement en mémoire et le planificateur DAG de Spark permettent d'exécuter des charges de travail plus rapidement que les moteurs de traitement sur disque, en particulier pour les tâches itératives. Google Cloud accélère encore le processus grâce à une infrastructure optimisée et à Lightning Engine.
Simplicité d'utilisation
Les opérateurs de haut niveau de Spark simplifient la création d'applications parallèles. L'utilisation interactive de Scala, Python, R et SQL permet un développement rapide. Google Cloud offre des options sans serveur et des notebooks intégrés avec Gemini.
Évolutivité
Spark offre une évolutivité horizontale, en traitant de grandes quantités de données en distribuant le travail sur les nœuds du cluster. Google Cloud simplifie l'évolutivité grâce à l'autoscaling sans serveur et aux clusters gérés.
Portée générale
Spark fournit une pile de bibliothèques, telles que SQL et DataFrames, MLlib pour le machine learning, GraphX et Spark Streaming. Vous pouvez facilement les combiner dans une même application.
Innovation du framework Open Source
Spark exploite le pouvoir des communautés Open Source pour innover et résoudre les problèmes rapidement. Google Cloud adopte cet esprit d'ouverture en proposant Apache Spark standard tout en améliorant ses fonctionnalités.
Apache Spark est un moteur de calcul en clusters ou sans serveur rapide et à usage général. Spark permet aux programmeurs d'écrire rapidement des applications dans Java, Scala, Python, R et SQL, ce qui en fait une solution accessible aux développeurs, aux data scientists et aux experts commerciaux avec des connaissances en statistiques. Spark SQL permet aux utilisateurs de se connecter à une source de données quelconque et de la présenter sous forme de tables destinées aux clients SQL. Les algorithmes de machine learning interactif peuvent en outre être facilement mis en œuvre dans Spark.
Avec un moteur uniquement SQL tel que Apache Impala, Apache Hive ou Apache Drill, les utilisateurs ne peuvent utiliser que le langage SQL ou des langages de type SQL pour interroger des données stockées dans plusieurs bases de données. Cela signifie que les frameworks sont plus petits qu'avec Spark. Cependant, sur Google Cloud, vous n'avez pas à faire de choix strict. BigQuery fournit de puissantes fonctionnalités SQL, et Managed Service pour Apache Spark vous permet d'utiliser la polyvalence de Spark sur les mêmes données via Lakehouse avec des formats ouverts tels qu'Apache Iceberg.
De nombreuses entreprises utilisent Spark pour simplifier la tâche complexe (et gourmande en ressources de calcul) de traitement et d'analyse d'importants volumes de données structurées et non structurées, en temps réel ou archivées. Spark permet également aux utilisateurs d'intégrer facilement des fonctionnalités complexes pertinentes, telles que le machine learning ou les algorithmes de graphe. Voici quelques exemples d'applications courantes :
Les ingénieurs de données s'appuient sur Spark pour concevoir, créer et gérer des pipelines de traitement de données robustes et des workflows ETL à grande échelle. Sur Google Cloud, les ingénieurs de données peuvent exploiter Managed Service pour Apache Spark afin d'éliminer les tâches répétitives d'infrastructure, en choisissant entre une exécution sans serveur et sans opération ou des clusters entièrement gérés. En intégrant parfaitement BigQuery et Knowledge Catalog, les ingénieurs peuvent créer des architectures de lakehouse ouvertes et gouvernées à l'aide de formats tels qu'Apache Iceberg. De plus, avec l'aide des agents de données et de Gemini, ils peuvent automatiser le data wrangling et accélérer la génération de code PySpark, passant des données brutes à des pipelines prêts pour la production plus rapidement que jamais.
Les data scientists peuvent optimiser leur expérience d'analyse et de ML en utilisant Spark avec des GPU. La capacité à traiter plus rapidement d'importants volumes de données avec un langage familier peut permettre d'accélérer l'innovation. Google Cloud offre une prise en charge robuste des GPU pour Spark et une intégration parfaite avec la plate-forme d'agents Gemini Enterprise, ce qui permet aux data scientists de créer et de déployer des modèles plus rapidement. Ils peuvent connecter leurs IDE préférés, tels que Jupyter ou VS Code, pour une expérience de développement flexible. Combinée à Gemini, cette expérience de développement flexible permet d'accélérer le workflow, de l'exploration initiale au déploiement en production.
Google Cloud résout les problèmes courants liés à l'exécution de Spark à grande échelle, ce qui vous permet de vous concentrer sur les insights, et non sur l'infrastructure. Optimisez votre expérience avec Managed Service pour Apache Spark. Managed Service pour Apache Spark :
Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.