Was ist Apache Spark?

Apache Spark ist eine einheitliche Analyse-Engine für die Verarbeitung großer Datenmengen. Sie nutzt integrierte Module für SQL, Streaming, maschinelles Lernen und Graphverarbeitung. Spark kann auf Apache Hadoop, Kubernetes, eigenständig, in der Cloud und für unterschiedliche Datenquellen ausgeführt werden. Es bietet umfangreiche APIs in Java, Scala, Python (PySpark) und R und ist daher für eine Vielzahl von Entwicklern und Data Scientists zugänglich.

In Google Cloud wird Apache Spark zu einer „Data-to-AI“-Plattform. Durch die Nutzung serverloser Optionen und bahnbrechender Leistungsverbesserungen wie der Lightning Engine löst Google Cloud die „Tuning-Steuer“, die mit herkömmlichen Spark-Bereitstellungen verbunden ist. Durch die tiefgreifende Integration in eine einheitliche Daten- und KI-Plattform können Nutzer schneller als je zuvor von Rohdaten zu KI-gestützten Maßnahmen gelangen.

Apache Spark im Vergleich zu Apache Hadoop

Doch wofür wird Apache Spark und wofür wird Apache Hadoop verwendet? Hadoop wird primär für festplattenlastige Rechenvorgänge mit dem MapReduce-Modell eingesetzt. Spark besitzt eine flexiblere und oft teurere Architektur zur In-Memory-Verarbeitung. Spark ist eine schnelle Computercluster-Engine für allgemeine Zwecke, die in einem Hadoop-Cluster oder eigenständig bereitgestellt werden kann. Anhand der einzelnen Features der beiden Systeme können Sie entscheiden, wofür Sie welche Lösung implementieren.

Apache Spark-Ökosystem und -Komponenten

Das Spark-System besteht aus fünf Hauptkomponenten, die durch die Infrastruktur von Google Cloud optimiert werden:

  • Spark Core: Die grundlegende Ausführungs-Engine, die die Verteilung von Aufgaben und E/A-Vorgängen verwaltet. Es wurden Resilient Distributed Datasets (RDDs) eingeführt, unveränderliche verteilte Sammlungen von Objekten, die parallel und fehlertolerant verarbeitet werden.
  • Spark SQL: Das Modul für die Arbeit mit strukturierten Daten mithilfe von DataFrames. Google Cloud beschleunigt diese Vorgänge mit der Lightning Engine weiter und ermöglicht erhebliche Geschwindigkeitssteigerungen ohne manuelle Abstimmung.
  • Spark Streaming: Ermöglicht skalierbare, fehlertolerante Streaminglösungen für Batch- und Echtzeit-Jobs.
  • MLlib: Eine skalierbare Machine-Learning-Bibliothek. In Kombination mit Vertex AI lassen sich MLlib-Workflows nahtlos in MLOps-Pipelines einbinden und die Entwicklung kann mit Gemini für das Programmieren und die Fehlerbehebung optimiert werden.
  • GraphX: Die API für Graphen und parallele Graphberechnung.

Einzigartiger Mehrwert für Data Scientists und Data Engineers

Google Cloud bietet eine spezielle Umgebung, die auf die besonderen Anforderungen von Datenexperten zugeschnitten ist:

  • Integrierte Entwicklung in BigQuery Studio: Data Scientists können Spark-Code direkt in BigQuery Studio-Notebooks erstellen und ausführen. So wird eine einheitliche Nutzung von Spark und BigQuery mit einem einzigen abfragbaren Metadatendienst ermöglicht.
  • KI-gestützte Produktivität mit Gemini: Nutzen Sie Gemini für den gesamten Lebenszyklus – von der Entwicklung und Bereitstellung bis hin zur Überwachung und Fehlerbehebung komplexer PySpark-Jobs.
  • Serverlose Ausführung ohne Betriebsaufwand: Sie müssen sich nicht mehr um die Verwaltung von Clustern kümmern. Mit Serverless Spark können Sie einen einzigen Befehl senden und Google erledigt den Rest – Sie müssen keine Cluster erstellen, konfigurieren oder verwalten.
  • Einheitliche Governance: Mit Dataplex Universal Catalog können Sie die Daten- und KI-Governance verwalten, Semantik für Agents bereitstellen und einen konsistenten Datenlebenszyklus von der Aufnahme bis zu KI-gestützten Statistiken sicherstellen.

Zusätzliche Ressourcen

Gleich loslegen

Profitieren Sie von einem Guthaben in Höhe von 300 $, um Google Cloud und mehr als 20 immer kostenlose Produkte kennenzulernen.

Google Cloud