Apache Spark ist eine einheitliche Analyse-Engine für die Verarbeitung großer Datenmengen. Sie nutzt integrierte Module für SQL, Streaming, maschinelles Lernen und Graphverarbeitung. Spark kann auf Apache Hadoop, Kubernetes, eigenständig, in der Cloud und für unterschiedliche Datenquellen ausgeführt werden. Es bietet umfangreiche APIs in Java, Scala, Python (PySpark) und R und ist daher für eine Vielzahl von Entwicklern und Data Scientists zugänglich.
In Google Cloud wird Apache Spark zu einer „Data-to-AI“-Plattform. Durch die Nutzung serverloser Optionen und bahnbrechender Leistungsverbesserungen wie der Lightning Engine löst Google Cloud die „Tuning-Steuer“, die mit herkömmlichen Spark-Bereitstellungen verbunden ist. Durch die tiefgreifende Integration in eine einheitliche Daten- und KI-Plattform können Nutzer schneller als je zuvor von Rohdaten zu KI-gestützten Maßnahmen gelangen.
Doch wofür wird Apache Spark und wofür wird Apache Hadoop verwendet? Hadoop wird primär für festplattenlastige Rechenvorgänge mit dem MapReduce-Modell eingesetzt. Spark besitzt eine flexiblere und oft teurere Architektur zur In-Memory-Verarbeitung. Spark ist eine schnelle Computercluster-Engine für allgemeine Zwecke, die in einem Hadoop-Cluster oder eigenständig bereitgestellt werden kann. Anhand der einzelnen Features der beiden Systeme können Sie entscheiden, wofür Sie welche Lösung implementieren.
Das Spark-System besteht aus fünf Hauptkomponenten, die durch die Infrastruktur von Google Cloud optimiert werden:
Google Cloud bietet eine spezielle Umgebung, die auf die besonderen Anforderungen von Datenexperten zugeschnitten ist:
Profitieren Sie von einem Guthaben in Höhe von 300 $, um Google Cloud und mehr als 20 immer kostenlose Produkte kennenzulernen.