Apache Spark è un motore di analisi unificato per il trattamento dati su vasta scala con moduli integrati per SQL, flussi di dati, machine learning ed elaborazione di grafici. Spark può essere eseguito su Apache Hadoop, Kubernetes, in modo indipendente, nel cloud e su diverse origini dati. Fornisce API complete in Java, Scala, Python (PySpark) ed R, rendendolo accessibile a un'ampia gamma di sviluppatori e data scientist.
Su Google Cloud, Apache Spark si trasforma in una piattaforma "Data-to-AI". Sfruttando le opzioni serverless e i miglioramenti rivoluzionari delle prestazioni come Lightning Engine, Google Cloud risolve il "tuning tax" associato ai deployment Spark tradizionali. Le integrazioni profonde in una piattaforma unificata di dati e AI consentono agli utenti di passare dai dati non elaborati all'azione basata sull'AI più velocemente che mai.
Una domanda ricorrente è: quando si usa Apache Spark e quando invece Apache Hadoop? Mentre Hadoop viene utilizzato principalmente per operazioni a uso intensivo di dischi con il paradigma MapReduce, Spark è un'architettura di elaborazione in memoria più flessibile e spesso più costosa. Spark è un veloce motore di calcolo per cluster per uso generico di cui è possibile eseguire il deployment in un cluster Hadoop o in modalità autonoma. La comprensione delle diverse funzionalità di ciascuno permetterà di capire quale implementare in base ai requisiti di latenza e memoria del carico di lavoro.
L'ecosistema Spark comprende cinque componenti chiave, ognuno dei quali è stato migliorato dall'infrastruttura di Google Cloud:
Google Cloud fornisce un ambiente specializzato che soddisfa le esigenze uniche dei professionisti dei dati:
Inizia a creare su Google Cloud con 300 $ di crediti senza costi e oltre 20 prodotti sempre senza costi.