Cloud Dataproc

Verwalteter Spark- und Hadoop-Dienst – schnell, nutzerfreundlich und kostengünstig

Kostenlos testen

Verwalteter Hadoop- und Spark-Dienst

Sie können mithilfe von Google Cloud Dataproc in Verbindung mit einem Apache Hadoop-, Apache Spark-, Apache Pig- und Apache Hive-Dienst große Datasets einfach und kostengünstig verarbeiten. Kontrollieren Sie Ihre Kosten, indem Sie verwaltete Cluster jeder beliebigen Größe schnell erstellen und sie deaktivieren, sobald Sie sie nicht mehr benötigen. Dank der Integration von Cloud Dataproc in Produkte der Google Cloud Platform erhalten Sie eine leistungsstarke und vollständige Plattform zur Datenverarbeitung.

Verwalteter Hadoop- und Spark-Dienst

Schnelle und skalierbare Datenverarbeitung

Sie können Cloud Dataproc-Cluster schnell erstellen und jederzeit in der Größe anpassen (drei bis Hunderte von Knoten), ohne befürchten zu müssen, dass Ihre Daten-Pipelines irgendwann die Größe Ihrer Cluster übersteigen könnten. Da Clusteraktionen durchschnittlich weniger als 90 Sekunden in Anspruch nehmen, können Sie sich auf die Analyse anstatt auf die Infrastruktur konzentrieren.

Schnelle und skalierbare Datenverarbeitung

Attraktive Preisgestaltung

Die Preise für Cloud Dataproc richten sich nach den Grundsätzen der Preisgestaltung der Google Cloud Platform. Das bedeutet: Sie erhalten eine kostengünstige und übersichtliche Preisstruktur, die auf der tatsächlichen Nutzung und einer Abrechnung pro Minute basiert. Da Cloud Dataproc-Cluster außerdem präemptive Instanzen umfassen können, profitieren Sie von einem leistungsstarken Cluster zu niedrigeren Gesamtkosten.

Attraktive Preisgestaltung

Open-Source-Ökosystem

Das Spark- und Hadoop-Ökosystem umfasst Tools, Bibliotheken und Dokumente, die für Cloud Dataproc genutzt werden können. Da regelmäßig aktualisierte Versionen von Spark, Hadoop, Pig und Hive bereitgestellt werden, müssen Sie für den Einstieg keine neuen Tools oder APIs erlernen. Sie können zudem bestehende Projekte oder ETL-Pipelines ohne Neuentwicklung verschieben.

Open-Source-Ökosystem

Schon darüber nachgedacht?

Die Cloud Platform bietet für zentrale Szenarien der Datenverarbeitung und -analyse zusätzliche Skalierbarkeit, Effizienz und Einfachheit. Wenn Sie Hive on Hadoop (oder SparkSQL) verwenden, sollten Sie die Nutzung von Google BigQuery in Betracht ziehen. Dieser On-Demand-SQL-Analysedienst erzielt erstaunliche Leistungen. Wenn Sie Pipelines zur Datentransformation mit Spark oder MapReduce programmieren, ist Google Cloud Dataflow möglicherweise die geeignete Lösung für Sie. Dieser vollständig verwaltete Dienst führt eine breite Palette von Datenverarbeitungsmustern (z. B. ETL, Batchberechnung und Streamingberechnung) aus und verzichtet auf mühsame Aufgaben, die bei anderen Tools erforderlich sind.

Google Cloud Dataflow

Funktionen von Cloud Dataproc

Google Cloud Dataproc: ein verwalteter Spark- und Hadoop-Dienst – schnell, nutzerfreundlich und kostengünstig

Automatisierte Clusterverwaltung
Dank der verwalteten Funktionen wie Bereitstellung, Protokollierung und Monitoring können Sie sich voll auf Ihre Daten und weniger auf die Cluster konzentrieren. Ihre Cluster sind stabil, skalierbar und schnell.
Skalierbare Cluster
Cluster lassen sich mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Integrierte Lösung
Durch die bereits vorhandene Integration in Cloud Storage, BigQuery, Bigtable, Stackdriver Logging und Stackdriver Monitoring erhalten Sie eine vollständige und leistungsfähige Datenplattform.
Versionsverwaltung
Imageversionen ermöglichen den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools.
Entwicklertools
Mehrere Möglichkeiten zum Verwalten eines Clusters, einschließlich nutzerfreundlicher Web-UI, Google Cloud SDK, RESTful-APIs und SSH-Zugriff.
Initialisierungsaktionen
Beim Erstellen des Clusters können Sie Initialisierungsaktionen ausführen, um die benötigten Einstellungen und Bibliotheken anzupassen.
Automatische oder manuelle Konfiguration
Cloud Dataproc erledigt die Konfiguration von Hardware und Software auf Clustern automatisch, bietet jedoch auch die Möglichkeit der manuellen Kontrolle.
Flexible virtuelle Maschinen
Cluster können benutzerdefinierte Maschinentypen und präemptive Maschinentypen verwenden, sodass die Größe jederzeit Ihren Anforderungen entspricht.

Cloud Dataproc – Preise

Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster1 verwendet werden, eine geringe gestaffelte Gebühr.

Iowa Oregon Northern Virginia South Carolina Belgien London Sydney Taiwan Tokio
Maschinentyp Preis
Standardmaschinen
1–64 virtuelle CPUs
Maschinen mit großem Speicher
2-64 virtuelle CPUs
Maschinen mit leistungsfähiger CPU
2-64 virtuelle CPUs
Benutzerdefinierte Maschinen
Basierend auf vCPU und Speichernutzung

1 Google Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster während dessen Betrieb verwendet werden, eine geringe gestaffelte Gebühr. Zusätzliche von Cloud Dataproc genutzte Ressourcen, wie z. B. das Compute Engine-Netzwerk, BigQuery, Cloud Bigtable usw., werden verbrauchsabhängig abgerechnet. Ausführliche Preisinformationen finden Sie in der Preisübersicht.

Ressourcen unterwegs überwachen

Projekte jetzt einfach in der Google Cloud Console App verwalten.