Qu'est-ce qu'Apache Spark ?

Apache Spark est un moteur d'analyse unifié conçu pour le traitement des données à grande échelle avec des modules intégrés pour SQL, le traitement en flux continu, le machine learning et le traitement graphique. Spark peut être exécuté sur Apache Hadoop, Kubernetes, de façon indépendante ou dans le cloud. Par ailleurs, il peut s'appliquer à des sources de données diverses. Il fournit des API riches en Java, Scala, Python (PySpark) et R, ce qui le rend accessible à un large éventail de développeurs et de data scientists.

Sur Google Cloud, Apache Spark est transformé en plate-forme "Data-to-AI". En exploitant les options sans serveur et les améliorations révolutionnaires des performances comme Lightning Engine, Google Cloud élimine les coûts de réglage associés aux déploiements Spark traditionnels. Grâce à une intégration poussée dans une plate-forme unifiée de données et d'IA, les utilisateurs peuvent passer des données brutes à des actions basées sur l'IA plus rapidement que jamais.

Apache Spark et Apache Hadoop

Quand utiliser Apache Spark et quand utiliser Apache Hadoop ? Hadoop est principalement utilisé pour les opérations gourmandes en disque dur avec le paradigme MapReduce, tandis que Spark est une architecture de traitement en mémoire plus flexible et généralement plus coûteuse. Spark est un moteur de calcul en clusters rapide et à usage général qui peut être déployé dans un cluster Hadoop ou en mode autonome. Il est important de bien comprendre les caractéristiques de chacun de ces systèmes pour savoir lequel mettre en œuvre en fonction des exigences de latence et de mémoire de votre charge de travail.

Écosystème et composants Apache Spark

L'écosystème Spark inclut cinq composants clés, chacun étant amélioré par l'infrastructure de Google Cloud :

  • Spark Core : moteur d'exécution de base qui gère la distribution des tâches et les E/S. Il a introduit les ensembles de données distribués résilients (RDD), des collections d'objets distribués immuables qui peuvent être traitées en parallèle avec tolérance aux pannes.
  • Spark SQL : module permettant de travailler avec des données structurées à l'aide de DataFrames. Google Cloud accélère encore ces opérations avec Lightning Engine, ce qui permet d'améliorer considérablement les performances sans nécessiter de réglage manuel.
  • Spark Streaming : permet de créer des solutions de traitement par flux tolérantes aux pannes et évolutives pour les jobs par lots et en temps réel.
  • MLlib : bibliothèque de machine learning évolutive. En combinant Vertex AI aux workflows MLlib, vous pouvez intégrer facilement ces workflows aux pipelines MLOps. Vous pouvez également améliorer le développement en utilisant Gemini pour le codage et le dépannage.
  • GraphX : l'API pour les graphes et le calcul parallèle de graphes.

Une valeur unique pour les data scientists et les ingénieurs

Google Cloud fournit un environnement spécialisé qui répond aux besoins uniques des professionnels des données :

  • Développement intégré dans BigQuery Studio  : les data scientists peuvent écrire et exécuter du code Spark directement dans les notebooks BigQuery Studio. Cela permet d'unifier l'expérience entre Spark et BigQuery à l'aide d'un service de métadonnées interrogeable unique.
  • Productivité assistée par l'IA avec Gemini  : utilisez Gemini pour vous aider tout au long du cycle de vie, du développement et du déploiement à la surveillance et au dépannage des jobs PySpark complexes.
  • Exécution sans serveur et sans opération : éliminez la charge opérationnelle liée à la gestion des clusters. Avec Serverless Spark, vous pouvez envoyer une seule commande et laisser Google s'occuper du reste. Vous n'avez pas besoin de créer, de configurer ni de gérer de clusters.
  • Gouvernance unifiée : utilisez Dataplex Universal Catalog pour gérer la gouvernance des données et de l'IA, fournir des sémantiques aux agents et assurer un cycle de vie des données cohérent, de l'ingestion aux insights basés sur l'IA.

Autres ressources

Passez à l'étape suivante

Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.

Google Cloud