Google Cloud Dataproc kann im Vergleich zu anderen cloudbasierten Hadoop- und Spark-Alternativen eine Kostenersparnis von 18–60 % erzielen. ESG-Bericht herunterladen

Dataproc

Verwaltete Plattform für Spark, Hadoop und Open-Source-Analysen

Führen Sie vollständig verwaltete Apache Spark-, Hadoop- und mehr als 30 Open-Source-Framework-Cluster mit Leichtigkeit und Kontrolle aus. Beschleunigen Sie Spark in der Compute Engine mit der Lightning Engine und integrieren Sie es in das offene Lakehouse von Google Cloud.

Apache Spark ist eine Marke der Apache Software Foundation.

Features

Robuste Unterstützung der Hadoop-Umgebung

Neben Spark bietet Dataproc vollständig verwaltete Dienste für den gesamten Apache Hadoop-Stack (MapReduce, HDFS, YARN) sowie Flink, Trino, Hive und mehr als 30 weitere Open-Source-Tools. Dataproc ist mit Dataproc Metastore, einem vollständig verwalteten Hive Metastore-Dienst, integriert, um die Metadatenverwaltung für die traditionellen Data-Lake-Komponenten zu vereinfachen. Sie können traditionelle Data-Lake-Arbeitslasten modernisieren oder neue Anwendungen mit Ihren bevorzugten Engines erstellen.

Verwaltetes Spark mit Lightning Engine

Führen Sie anspruchsvolle Spark-Arbeitslasten mit der Kontrolle eines verwalteten Dataproc-Clusters aus, der jetzt mit der Lightning Engine** in der Vorschau um das 4,3‑Fache* schneller ist. Deutliche Leistungssteigerung bei Spark SQL- und DataFrame-Operationen Sie können Spark-Umgebungen genau nach Ihren Anforderungen konfigurieren und Versionen und Bibliotheken auswählen.

* Die Abfragen sind von den Standards TPC-DS und TPC-H abgeleitet und daher nicht mit veröffentlichten TPC-DS-Standard- und TPC-H-Standard-Ergebnissen vergleichbar, da diese Ausführungen nicht allen Anforderungen der TPC-DS- und TPC-H-Standard-Spezifikation entsprechen.

** Verfügbar für Dataproc in Compute Engine (Premium-Stufe).

Flexible Konfiguration und Verwaltung von Clustern

Dataproc-Cluster lassen sich mit einer Vielzahl von Maschinentypen (einschließlich GPUs), VMs auf Abruf, Speicheroptionen, Autoskalierungsrichtlinien, Initialisierungsaktionen, Containern/Images und optionalen Komponenten anpassen. Nutzen Sie Funktionen wie Workflow-Vorlagen für die Koordination komplexer Jobs und verwalten Sie Cluster über die Console, gcloud, die API oder Clientbibliotheken. Durch die Einbindung in Cloud Monitoring erhalten Sie detaillierte Informationen zur Clusterleistung und zum Clusterzustand, einschließlich umfassender Messwerte, Dashboards und Benachrichtigungsfunktionen.

Konnektivität offener Lakehouses

Dataproc-Cluster lassen sich nativ in BigLake Metastore einbinden, sodass Sie Daten verarbeiten können, die in offenen Formaten wie Apache Iceberg in Cloud Storage gespeichert sind. Für herkömmliche Hive-basierte Metadatenanforderungen gibt es eine nahtlose Einbindung in den verwalteten Dataproc Metastore-Dienst. Nutzen Sie den Dataplex Universal Catalog für die einheitliche Ermittlung, Herkunftsverfolgung und Governance Ihrer Lakehouse-Assets. Erweitern Sie Ihre Datenanwendungen, indem Sie Dataproc mit BigQuery, Vertex AI, Spanner, Pub/Sub und Data Fusion verbinden und leistungsstarke End-to-End-Lösungen erstellen.

Open-Source-Datenverarbeitung schützen

Profitieren Sie von der robusten Sicherheit von Google Cloud. Konfigurieren Sie Kerberos, verwalten Sie den Zugriff mit IAM, erzwingen Sie Netzwerkrichtlinien mit VPC Service Controls und verwenden Sie CMEK. Integration mit dem Dataplex Universal Catalog für die zentrale Richtlinienverwaltung und detaillierte Zugriffssteuerung mit BigLake.

Data Engineers und Data Scientists unterstützen

Sie können vertraute Tools und IDEs wie Jupyter und VS Code IDEs auf Ihren Laptops verwenden, um Dataproc-Cluster zu verbinden. Dataproc mit der Vertex AI Workbench für die interaktive Spark-Entwicklung in Clustern integrieren und End-to-End-AI/ML-Pipelines mit Vertex AI erstellen.

Funktionsweise

Vereinfachte Cluster-Vorgänge für leistungsstarke Analysen

Gängige Einsatzmöglichkeiten

Data-Lake-Modernisierung und Hadoop-Migration

Data Lake modernisieren

Lokale Hadoop- und Spark-Arbeitslasten lassen sich ganz einfach in die Cloud migrieren. Mit Dataproc können Sie MapReduce-, Hive-, Pig- und Spark-Jobs für Daten in Cloud Storage ausführen, die in den Dataproc Metastore eingebunden und vom Dataplex Universal Catalog verwaltet werden.

Tutorials, Kurzanleitungen und Labs

Data Lake modernisieren

Lokale Hadoop- und Spark-Arbeitslasten lassen sich ganz einfach in die Cloud migrieren. Mit Dataproc können Sie MapReduce-, Hive-, Pig- und Spark-Jobs für Daten in Cloud Storage ausführen, die in den Dataproc Metastore eingebunden und vom Dataplex Universal Catalog verwaltet werden.

Batch-ETL im großen Maßstab mit Spark und Hadoop

Batchverarbeitung für Unternehmen

Verarbeiten und transformieren Sie riesige Datenmengen effizient mit Spark, beschleunigt durch die Lightning Engine mit Dataproc in der Compute Engine, oder in MapReduce in anpassbaren Dataproc-Clustern. Komplexe ETL-Pipelines in einer kontrollierten Umgebung hinsichtlich Leistung und Kosten optimieren

Tutorials, Kurzanleitungen und Labs

Batchverarbeitung für Unternehmen

Verarbeiten und transformieren Sie riesige Datenmengen effizient mit Spark, beschleunigt durch die Lightning Engine mit Dataproc in der Compute Engine, oder in MapReduce in anpassbaren Dataproc-Clustern. Komplexe ETL-Pipelines in einer kontrollierten Umgebung hinsichtlich Leistung und Kosten optimieren

Konfigurierbare Data-Science- und ML-Umgebungen

Maßgeschneiderte Data Science im großen Maßstab

Erstellen Sie maßgeschneiderte Dataproc-Cluster mit bestimmten Versionen von Spark, Jupyter und den erforderlichen ML-Bibliotheken für das Training von Modellen im Team, in großem Maßstab und mit erweiterten Analysen. Integration in Vertex AI für MLOps.

AI/ML-Rezepte für Dataproc

Tutorials, Kurzanleitungen und Labs

Maßgeschneiderte Data Science im großen Maßstab

Erstellen Sie maßgeschneiderte Dataproc-Cluster mit bestimmten Versionen von Spark, Jupyter und den erforderlichen ML-Bibliotheken für das Training von Modellen im Team, in großem Maßstab und mit erweiterten Analysen. Integration in Vertex AI für MLOps.

AI/ML-Rezepte für Dataproc

Verschiedene Open-Source-Analyse-Engines ausführen

Flexibler OSS

Erstellen Sie dedizierte Cluster mit Trino für interaktive SQL-Abfragen, Flink für erweiterte Streamverarbeitung oder nutzen Sie andere spezialisierte Open-Source-Engines neben Spark und Hadoop, die alle von Dataproc verwaltet werden.

Dataproc meets TensorFlow on YARN

Tutorials, Kurzanleitungen und Labs

Flexibler OSS

Erstellen Sie dedizierte Cluster mit Trino für interaktive SQL-Abfragen, Flink für erweiterte Streamverarbeitung oder nutzen Sie andere spezialisierte Open-Source-Engines neben Spark und Hadoop, die alle von Dataproc verwaltet werden.

Dataproc meets TensorFlow on YARN

Lösung erstellen

Welches Problem möchten Sie lösen?

What you'll get:

Detaillierte Anleitung

Referenzarchitektur

Vorkonfigurierte Lösungen

Dieser Dienst wurde mit Vertex AI erstellt. Nutzer müssen mindestens 18 Jahre alt sein, um ihn verwenden zu können. Geben Sie keine vertraulichen oder personenbezogenen Daten ein.

Preise

Dataproc-Preise für verwaltete Cluster	Dataproc bietet Pay-as-you-go-Preise. Kosten mit Autoscaling und VMs auf Abruf optimieren. Compute Engine Premium-Stufe ermöglicht schnelleres Spark mit Lightning Engine.
Schlüsselkomponenten:	Compute Engine-Instanzen (vCPU, Arbeitsspeicher) Dataproc-Dienstgebühr (pro vCPU-Stunde) Nichtflüchtiger Speicher
Beispiel:	Ein Cluster mit 6 Knoten (1 Haupt-+ 5 Worker) von 4 CPUs, die jeweils 2 Stunden lang ausgeführt wurden, würde 0,48 $ kosten. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $

Detaillierte Dataproc-Preise ansehen

Dataproc-Preise für verwaltete Cluster

Dataproc bietet Pay-as-you-go-Preise. Kosten mit Autoscaling und VMs auf Abruf optimieren. Compute Engine Premium-Stufe ermöglicht schnelleres Spark mit Lightning Engine.

Schlüsselkomponenten:

Compute Engine-Instanzen (vCPU, Arbeitsspeicher)
Dataproc-Dienstgebühr (pro vCPU-Stunde)
Nichtflüchtiger Speicher

Beispiel:

Ein Cluster mit 6 Knoten (1 Haupt-+ 5 Worker) von 4 CPUs, die jeweils 2 Stunden lang ausgeführt wurden, würde 0,48 $ kosten. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $

Detaillierte Dataproc-Preise ansehen

Preisrechner

Mit dem Preisrechner können Sie Ihre monatlichen Dataproc-Kosten einschließlich regionsspezifischer Preise und Gebühren schätzen.

Individuelles Angebot

Wenden Sie sich an unser Vertriebsteam, wenn Sie ein individuelles Angebot für Ihr Unternehmen erhalten möchten.

Los gehts

300 $ Startguthaben für Neukunden

Sie haben ein großes Projekt?

Dataproc-Cluster mit der Google Cloud Console erstellen

Cloud Storage-Connector mit Apache Spark verwenden

Das Architecture Center bietet Inhaltsressourcen für eine Vielzahl von Migrationsthemen und ‑szenarien, um Sie bei der Migration von Arbeitslasten, Daten und Prozessen zu Google Cloud zu unterstützen.

Dataproc

Verwaltete Plattform für Spark, Hadoop und Open-Source-Analysen

Produkthighlights:

Robuste Unterstützung der Hadoop-Umgebung

Verwaltetes Spark mit Lightning Engine

Flexible Konfiguration und Verwaltung von Clustern

Konnektivität offener Lakehouses

Open-Source-Datenverarbeitung schützen

Data Engineers und Data Scientists unterstützen

Vereinfachte Cluster-Vorgänge für leistungsstarke Analysen

Data-Lake-Modernisierung und Hadoop-Migration

Data Lake modernisieren

Tutorials, Kurzanleitungen und Labs

Data Lake modernisieren

Batch-ETL im großen Maßstab mit Spark und Hadoop

Batchverarbeitung für Unternehmen

Tutorials, Kurzanleitungen und Labs

Batchverarbeitung für Unternehmen

Konfigurierbare Data-Science- und ML-Umgebungen

Maßgeschneiderte Data Science im großen Maßstab

Tutorials, Kurzanleitungen und Labs

Maßgeschneiderte Data Science im großen Maßstab

Verschiedene Open-Source-Analyse-Engines ausführen

Flexibler OSS

Tutorials, Kurzanleitungen und Labs

Flexibler OSS

Preisrechner

Individuelles Angebot

Los gehts

300 $ Startguthaben für Neukunden

Sie haben ein großes Projekt?

Dataproc-Cluster mit der Google Cloud Console erstellen

Cloud Storage-Connector mit Apache Spark verwenden

Das Architecture Center bietet Inhaltsressourcen für eine Vielzahl von Migrationsthemen und ‑szenarien, um Sie bei der Migration von Arbeitslasten, Daten und Prozessen zu Google Cloud zu unterstützen.