Apache Spark est un moteur d'analyse unifié conçu pour le traitement des données à grande échelle avec des modules intégrés pour SQL, le traitement en flux continu, le machine learning et le traitement graphique. Spark peut être exécuté sur Apache Hadoop, Kubernetes, de façon indépendante ou dans le cloud. Par ailleurs, il peut s'appliquer à des sources de données diverses. Il fournit des API riches en Java, Scala, Python (PySpark) et R, ce qui le rend accessible à un large éventail de développeurs et de data scientists.
Sur Google Cloud, Apache Spark est transformé en plate-forme "Data-to-AI". En exploitant les options sans serveur et les améliorations révolutionnaires des performances comme Lightning Engine, Google Cloud élimine les coûts de réglage associés aux déploiements Spark traditionnels. Grâce à une intégration poussée dans une plate-forme unifiée de données et d'IA, les utilisateurs peuvent passer des données brutes à des actions basées sur l'IA plus rapidement que jamais.
Quand utiliser Apache Spark et quand utiliser Apache Hadoop ? Hadoop est principalement utilisé pour les opérations gourmandes en disque dur avec le paradigme MapReduce, tandis que Spark est une architecture de traitement en mémoire plus flexible et généralement plus coûteuse. Spark est un moteur de calcul en clusters rapide et à usage général qui peut être déployé dans un cluster Hadoop ou en mode autonome. Il est important de bien comprendre les caractéristiques de chacun de ces systèmes pour savoir lequel mettre en œuvre en fonction des exigences de latence et de mémoire de votre charge de travail.
L'écosystème Spark inclut cinq composants clés, chacun étant amélioré par l'infrastructure de Google Cloud :
Google Cloud fournit un environnement spécialisé qui répond aux besoins uniques des professionnels des données :
Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.