Cloud Dataproc

Apache Spark und Apache Hadoop schneller, einfacher und günstiger ausführen

Kostenlos testen

Cloudnatives Apache Hadoop und Apache Spark

Cloud Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Clouddienst, über den Sie Apache Spark- und Apache Hadoop-Cluster einfacher und günstiger ausführen können. Vorgänge, für die früher Stunden oder Tage notwendig waren, dauern jetzt nur noch Sekunden oder Minuten und dank sekundengenauer Abrechnung bezahlen Sie ausschließlich die tatsächlich genutzten Ressourcen. Cloud Dataproc lässt sich außerdem einfach in andere Dienste der Google Cloud Platform (GCP) integrieren. So erhalten Sie eine leistungsstarke, umfassende Plattform für Datenverarbeitung, Analysen und maschinelles Lernen.

Verwalteter Hadoop- und Spark-Dienst

Schnelle und skalierbare Datenverarbeitung

Sie können Cloud Dataproc-Cluster schnell erstellen und jederzeit in der Größe anpassen (drei bis Hunderte von Knoten). So können Sie sicher sein, dass Ihre Cluster den Datenpipelines jederzeit gewachsen sind. Da Clusteraktionen durchschnittlich weniger als 90 Sekunden in Anspruch nehmen, können Sie sich auf die Analyse statt auf die Infrastruktur konzentrieren.

Schnelle und skalierbare Datenverarbeitung

Attraktive Preisgestaltung

Analog zur Preisgestaltung der Google Cloud Platform hat Cloud Dataproc eine günstige, übersichtliche und sekundengenaue Preisstruktur basierend auf der tatsächlichen Nutzung. Da Cloud Dataproc-Cluster außerdem präemptive Instanzen umfassen können, profitieren Sie von einem leistungsstarken Cluster zu niedrigeren Gesamtkosten.

Attraktive Preisgestaltung

Open-Source-Ökosystem

Das Spark- und Hadoop-Ökosystem umfasst Tools, Bibliotheken und Dokumente, die für Cloud Dataproc genutzt werden können. Da regelmäßig aktualisierte Versionen von Spark, Hadoop, Pig und Hive bereitgestellt werden, müssen Sie für den Einstieg keine neuen Tools oder APIs erlernen. Außerdem können Sie bestehende Projekte oder ETL-Pipelines ohne Neuentwicklung verschieben.

Open-Source-Ökosystem

Vorteile von Cloud Dataproc

Google Cloud Dataproc ist ein verwalteter Apache Spark- und Apache Hadoop-Dienst, der schnell, nutzerfreundlich und kostengünstig ist.

Automatisierte Clusterverwaltung
Dank verwalteter Funktionen für Bereitstellung, Logging und Monitoring können Sie sich voll auf Ihre Daten anstatt auf die Cluster konzentrieren. Ihre Cluster sind stabil, skalierbar und schnell.
Skalierbare Cluster
Cluster lassen sich mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Integriert
Durch die Integration in Cloud Storage, BigQuery, Bigtable, Stackdriver Logging und Stackdriver Monitoring erhalten Sie eine vollständige und leistungsfähige Datenplattform.
Versionsverwaltung
Imageversionen ermöglichen den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools.
Hochverfügbar
Für hochverfügbare Cluster und Jobs lassen sich Cluster mit mehreren Masterknoten ausführen und Jobs so einrichten, dass sie bei einem Fehler neu gestartet werden.
Entwicklertools
Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Google Cloud SDK, RESTful APIs und SSH-Zugriff.
Initialisierungsaktionen
Beim Erstellen des Clusters können Sie Initialisierungsaktionen ausführen, um die benötigten Einstellungen und Bibliotheken zu installieren oder anzupassen.
Automatische oder manuelle Konfiguration
Cloud Dataproc erledigt die Konfiguration von Hardware und Software auf Clustern automatisch, bietet jedoch auch die Möglichkeit der manuellen Kontrolle.
Flexible virtuelle Maschinen
Für Cluster können benutzerdefinierte Maschinentypen und präemptive VMs verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht.

Cloud Dataflow oder Cloud Dataproc: Wofür sollten Sie sich entscheiden?

Cloud Dataproc und Cloud Dataflow können beide für die Datenverarbeitung verwendet werden und es gibt eine Überlappung im Hinblick auf ihre Batch- und Streaming-Funktionen. Wie entscheiden Sie, welches Produkt sich besser für Ihre Umgebung eignet?
Dataproc vs. Dataflow

Cloud Dataproc

Cloud Dataproc eignet sich für Umgebungen, die von bestimmten Komponenten der Apache-Big-Data-Umgebung abhängen:

  • check Tools/Pakete
  • check Pipelines
  • check Fähigkeiten bestehender Ressourcen

Cloud Dataflow

Cloud Dataflow ist in der Regel die bevorzugte Option für Greenfield-Umgebungen:

  • check Weniger operativer Aufwand
  • check Einheitlicher Ansatz für die Entwicklung von Batch- oder Streaming-Pipelines
  • check Einsatz von Apache Beam
  • check Unterstützung der Pipelineportabilität über Cloud Dataflow, Apache Spark und Apache Flink als Laufzeiten

Empfohlene Arbeitslasten

ARBEITSLASTEN CLOUD DATAPROC CLOUD DATAFLOW
Streamverarbeitung (ETL) check
Batch-Verarbeitung (ETL) check check
Iterative Verarbeitung und Notebooks check
Maschinelles Lernen mit Spark ML check
Vorverarbeitung für maschinelles Lernen check (mit Cloud ML Engine)

Cloud Dataproc – Preise

Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster1 verwendet werden, eine geringe gestaffelte Gebühr.

Iowa (us-central1) Oregon (us-west1) Northern Virginia (us-east4) South Carolina (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Belgien (europe-west1) London (europe-west2) Niederlande (europe-west4) Frankfurt (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Taiwan (asia-east1) Tokio (asia-northeast1)
Maschinentyp Preis
Standardmaschinen
1–64 virtuelle CPUs
Maschinen mit großem Speicher
2–64 virtuelle CPUs
Maschinen mit leistungsfähiger CPU
2–64 virtuelle CPUs
Benutzerdefinierte Maschinen
Basierend auf vCPU und Speichernutzung
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die in Cloud Platform SKUs in Ihrer Währung angegeben sind.

1 Google Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster während dessen Betrieb verwendet werden, eine geringe gestaffelte Gebühr. Zusätzliche von Cloud Dataproc genutzte Ressourcen, wie z. B. das Compute Engine-Netzwerk, BigQuery, Cloud Bigtable usw., werden verbrauchsabhängig abgerechnet. Ausführliche Preisinformationen finden Sie in der Preisübersicht.

Feedback geben zu...

Cloud Dataproc