Google Cloud kann im Vergleich zu anderen cloudbasierten Apache Spark-Alternativen Kosteneinsparungen von 18–60 % erzielen. ESG-Bericht herunterladen

Apache Spark in Google Cloud

Nutzen Sie das volle Potenzial von Spark in Google Cloud. Sie haben die Wahl zwischen serverloser Einfachheit oder einer Cluster-Steuerung, die durch Hochgeschwindigkeitsverarbeitung, KI-Unterstützung und nahtlose Open-Lakehouse-Konnektivität weiter unterstützt wird.

Datentransformation von Dun & Bradstreet

Dun & Bradstreet verkürzt Datenworkflows auf Minuten und verbessert die Reaktionszeiten um 60 %

2:46

Vorteile

Erhöhte Entwicklerproduktivität und schnellere Informationen über Daten

Nahtlose Spark-Nutzung für alle Datennutzer

Führen Sie Spark ganz einfach mit BigQuery, Vertex AI und IDEs mit serverlosen oder verwalteten Clustern aus. Mit Gemini für Code und Betrieb können Sie benutzerdefinierte Einbindungen vermeiden, ETL-zu-ML-Workflows optimieren und die Produktivität steigern.

Einfacher Betrieb durch serverloses Spark

Google Cloud Serverless für Apache Spark bietet sofortiges Autoscaling – bei minimalem Konfigurationsaufwand. Mit der Lightning Engine (Vorabversion) können Sie die Abfrageleistung um das 4,3‑Fache steigern*. Dataplex Universal Catalog vereinheitlicht Metadaten und vereinfacht Abläufe.

Spark auf deine Weise nutzen

„One size fits all“? Das glauben wir nicht. Google Cloud bietet Ihnen die Flexibilität, für Ihre Spark-Arbeitslasten zwischen serverlosen, verwalteten Clustern und Compute-Clustern zu wählen.

Wichtige Features

Leistungsstarke Möglichkeiten zum Ausführen von Spark in Google Cloud

Google Cloud Serverless für Apache Spark

Nutzen Sie Google Cloud Serverless für Apache Spark, um Produktivität und Leistung mit Lightning Engine* und Gemini zu steigern. Diese Funktion ist eine umfassend integrierte Umgebung, in der Sie Apache Spark- und SQL-Arbeitslasten direkt in BigQuery ausführen können. Sie bietet einheitliche Sicherheit, Laufzeit-Metadaten mithilfe des BigLake-Metastores und Governance über den Dataplex Universal Catalog. Steigern Sie die Produktivität dank integrierter CI/CD und Gemini in Notebooks und vermeiden Sie die Verwaltung von Apache Spark-Clustern.

* Die Abfragen sind von den TPC-DS- und TPC-H-Standards abgeleitet und daher nicht mit veröffentlichten TPC-DS-Standard- und TPC-H-Standard-Ergebnissen vergleichbar, da diese Ausführungen nicht allen Anforderungen der TPC-DS- und TPC-H-Standard-Spezifikationen entsprechen.

Verwaltete Spark-, Hadoop- und OSS-Cluster mit Dataproc

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Bereitstellung und den Betrieb von Spark, Hadoop und einem umfangreichen Ökosystem mit mehr als 30 Open-Source-Tools. Dank der Einbindung in die breite Palette der Google Cloud-Produkte und ‑Dienste, einschließlich der Lightning Engine für Dataproc in der Google Compute Engine (Premium-Stufe), eignet sich das Tool ideal für die Modernisierung von Data Lakes, effiziente ETL-Pipelines und sichere Data-Science-Initiativen im großen Maßstab, bei denen die Clustersteuerung von größter Bedeutung ist.

Data Science mit Apache Spark in Google Cloud

Ganz gleich, ob Sie die einfache Zero-Ops-Lösung von Google Cloud Serverless für Apache Spark oder die Steuerung von verwalteten Dataproc-Clustern bevorzugen – Sie können den gesamten Lebenszyklus des maschinellen Lernens beschleunigen. Vorteile:

Nahtlose Integration: Einfache Verbindung zu BigQuery für den Datenzugriff und Vertex AI für MLOps, um End-to-End-Data-Science-Pipelines zu erstellen.
Entwicklungsproduktivität: Nutzen Sie Gemini für Coding-Einblicke und Unterstützung in Notebook-Umgebungen wie BigQuery Studio und Vertex AI Workbench.
AI/ML-Bereitschaft: Nutzen Sie vorkonfigurierte ML-Bibliotheken und GPU-Beschleunigung, die sowohl für serverlose Spark- als auch Dataproc-Cluster für anspruchsvolle Trainings- und Inferenzaufgaben verfügbar sind.
Schnellere Iterationen: Konzentrieren Sie sich auf die Entwicklung und das Testen, ganz gleich, für welche Option Sie sich entscheiden.

Spark über Vertex AI

Mit Vertex AI können Sie Spark nahtlos für Data Science entwickeln und einsetzen. Nutzen Sie Spark über die Vertex AI Workbench für interaktive Entwicklungen mit integrierter Sicherheit und Unterstützung durch Gemini. Integrieren Sie Spark-Verarbeitung in Vertex AI Pipelines für robuste MLOps.

Open-Source-Tabellenformat-Unterstützung für Ihr Lakehouse

Die Spark-Angebote von Google Cloud bieten eine zuverlässige Kompatibilität mit Open-Source-Formaten wie Apache Iceberg, Delta Lake und Hudi. Nutzen Sie BigLake Metastore oder Dataproc Metastore für die einheitliche Verwaltung von Metadaten in verschiedenen Formaten. So können Sie eine offene Lakehouse-Architektur nutzen, in der Sie Daten mit der von Ihnen gewählten Spark-Engine verarbeiten können.

Partner