Cloud Dataproc

Apache Spark und Apache Hadoop schneller, einfacher und günstiger ausführen

Kostenlos testen

Cloudnatives Apache Hadoop und Apache Spark

Cloud Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Clouddienst, über den Sie Cluster mit Apache Spark und Apache Hadoop einfacher und günstiger ausführen können. Vorgänge, für die früher Stunden oder Tage notwendig waren, dauern jetzt nur noch Sekunden oder Minuten und dank sekundengenauer Abrechnung bezahlen Sie ausschließlich die tatsächlich genutzten Ressourcen. Cloud Dataproc lässt sich außerdem einfach in andere Dienste der Google Cloud Platform (GCP) integrieren. So erhalten Sie eine leistungsstarke, umfassende Plattform für die Datenverarbeitung, für Analysen und maschinelles Lernen.

Verwalteter Hadoop- und Spark-Dienst

Schnelle und skalierbare Datenverarbeitung

Sie können Cloud Dataproc-Cluster schnell erstellen und jederzeit in der Größe anpassen (von drei bis zu Hunderten von Knoten). Dies gibt Ihnen die Sicherheit, dass Ihre Cluster den Datenpipelines jederzeit gewachsen sind. Da Clusteraktionen durchschnittlich weniger als 90 Sekunden in Anspruch nehmen, können Sie sich auf die Analyse statt auf die Infrastruktur konzentrieren.

Schnelle und skalierbare Datenverarbeitung

Attraktive Preisgestaltung

Analog zur Preisgestaltung der Google Cloud Platform hat Cloud Dataproc eine günstige, übersichtliche und sekundengenaue Preisstruktur basierend auf der tatsächlichen Nutzung. Da Cloud Dataproc-Cluster außerdem die preislich attraktiven Instanzen auf Abruf umfassen können, profitieren Sie von einem leistungsstarken Cluster zu niedrigeren Gesamtkosten.

Attraktive Preisgestaltung

Open-Source-Umgebung

Die Spark- und Hadoop-Umgebung umfasst Tools, Bibliotheken und Dokumente, die für Cloud Dataproc genutzt werden können. Da regelmäßig aktualisierte Versionen von Spark, Hadoop, Pig und Hive bereitgestellt werden, müssen Sie für den Einstieg keine neuen Tools oder APIs erlernen. Außerdem können Sie bestehende Projekte oder ETL-Pipelines ohne Neuentwicklung verschieben.

Open-Source-Umgebung

Vorteile von Cloud Dataproc

Google Cloud Dataproc ist ein verwalteter Apache Spark- und Apache Hadoop-Dienst, der schnell, nutzerfreundlich und kostengünstig ist.

Automatisierte Clusterverwaltung
Dank verwalteter Funktionen für Bereitstellung, Logging und Monitoring können Sie sich voll auf Ihre Daten statt auf die Cluster konzentrieren. Ihre Cluster sind stabil, skalierbar und schnell.
Skalierbare Cluster
Cluster lassen sich mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Integriert
Durch die Integration in Cloud Storage, BigQuery, Bigtable, Stackdriver Logging und Stackdriver Monitoring erhalten Sie eine vollständige und belastbare Datenplattform.
Versionsverwaltung
Imageversionen machen den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools möglich.
Hochverfügbar
Für hochverfügbare Cluster und Jobs lassen sich Cluster mit mehreren Masterknoten ausführen und Jobs so einrichten, dass sie bei einem Fehler neu gestartet werden.
Entwicklertools
Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Google Cloud SDK, RESTful APIs und SSH-Zugriff.
Initialisierungsaktionen
Beim Erstellen des Clusters können Sie Initialisierungsaktionen ausführen, um die benötigten Einstellungen und Bibliotheken zu installieren oder anzupassen.
Automatische oder manuelle Konfiguration
Cloud Dataproc erledigt die Konfiguration von Hardware und Software auf Clustern automatisch, bietet aber auch die Möglichkeit der manuellen Kontrolle.
Flexible virtuelle Maschinen
Für Cluster können benutzerdefinierte Maschinentypen und VMs auf Abruf verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht.

Cloud Dataflow oder Cloud Dataproc: Was passt besser?

Sowohl Cloud Dataproc als auch Cloud Dataflow können für die Datenverarbeitung verwendet werden, wobei sie sich in ihren Batch- und Streaming-Funktionen überschneiden. Wie entscheiden Sie, welches Produkt sich besser für Ihre Umgebung eignet?
Dataproc und Dataflow im Vergleich

Cloud Dataproc

Cloud Dataproc eignet sich für Umgebungen, die von bestimmten Komponenten der Apache-Big-Data-Umgebung abhängen:

  • Tools/Pakete
  • Pipelines
  • Fähigkeiten vorhandener Ressourcen

Cloud Dataflow

Cloud Dataflow ist in der Regel die bevorzugte Option für Greenfield-Umgebungen:

  • Weniger operativer Aufwand
  • Einheitlicher Ansatz für die Entwicklung von Batch- oder Streaming-Pipelines
  • Verwendung von Apache Beam
  • Unterstützung der Pipelineportabilität über Cloud Dataflow, Apache Spark und Apache Flink als Laufzeiten

Empfohlene Arbeitslasten

ARBEITSLASTEN CLOUD DATAPROC CLOUD DATAFLOW
Streamverarbeitung (ETL)
Batch-Verarbeitung (ETL)
Iterative Verarbeitung und Notebooks
Maschinelles Lernen mit Spark ML
Vorverarbeitung für maschinelles Lernen (mit Cloud ML Engine)

Cloud Dataproc – Preise

Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster1 verwendet werden, eine geringe gestaffelte Gebühr.

Iowa (us-central1) Oregon (us-west1) Northern Virginia (us-east4) South Carolina (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Belgien (europe-west1) London (europe-west2) Niederlande (europe-west4) Zürich (europe-west6) Frankfurt (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Hongkong (asia-east2) Taiwan (asia-east1) Tokio (asia-northeast1)
Maschinentyp Preis
Standardmaschinen
1–64 virtuelle CPUs
Maschinen mit großem Speicher
2–64 virtuelle CPUs
Maschinen mit hoher CPU-Leistung
2–64 virtuelle CPUs
Benutzerdefinierte Maschinen
Basierend auf vCPU und Speichernutzung
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

1 Google Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster während dessen Betrieb verwendet werden, eine geringe gestaffelte Gebühr. Zusätzliche von Cloud Dataproc genutzte Ressourcen, wie z. B. das Compute Engine-Netzwerk, BigQuery, Cloud Bigtable usw., werden nutzungsabhängig abgerechnet. Ausführliche Preisinformationen finden Sie in der Preisübersicht.

Feedback geben zu...

Cloud Dataproc