Cloud Dataproc

Apache Spark und Apache Hadoop schneller, einfacher und günstiger ausführen

Kostenlos testen

Cloudnatives Apache Hadoop und Apache Spark

Cloud Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Cloud-Dienst, über den Sie Cluster mit Apache Spark und Apache Hadoop einfacher und günstiger ausführen können. Vorgänge, für die früher Stunden oder Tage notwendig waren, dauern jetzt nur noch Sekunden oder Minuten und dank sekundengenauer Abrechnung bezahlen Sie ausschließlich die tatsächlich genutzten Ressourcen. Cloud Dataproc lässt sich außerdem einfach in andere Dienste der Google Cloud Platform (GCP) integrieren. So erhalten Sie eine leistungsstarke, umfassende Plattform für die Datenverarbeitung, für Analysen und maschinelles Lernen.

Verwalteter Hadoop- und Spark-Dienst

Schnelle und skalierbare Datenverarbeitung

Sie können Cloud Dataproc-Cluster schnell erstellen und jederzeit in der Größe anpassen (von drei bis zu Hunderten von Knoten). Dies gibt Ihnen die Sicherheit, dass Ihre Cluster den Datenpipelines jederzeit gewachsen sind. Sie können sich auf die Analyse statt auf die Infrastruktur konzentrieren – denn Clusteraktionen nehmen durchschnittlich weniger als 90 Sekunden in Anspruch.

Schnelle und skalierbare Datenverarbeitung

Attraktive Preisgestaltung

Analog zur Preisgestaltung der Google Cloud Platform hat Cloud Dataproc eine günstige, übersichtliche und sekundengenaue Preisstruktur basierend auf der tatsächlichen Nutzung. Da Cloud Dataproc-Cluster außerdem Instanzen auf Abruf, Rabatte für zugesicherte Nutzung und Rabatte für kontinuierliche Nutzung umfassen können, profitieren Sie von einem leistungsstarken Cluster zu niedrigeren Gesamtkosten.

Attraktive Preisgestaltung

Open-Source-Umgebung

Sie können die Tools, Bibliotheken und Dokumentation von Spark und Hadoop mit Cloud Dataproc verwenden. Cloud Dataproc stellt regelmäßig Updates für native Versionen von Spark, Hadoop, Pig und Hive zur Verfügung, damit Sie keine neuen Tools oder APIs erlernen müssen und vorhandene Projekte oder ETL-Pipelines ohne Neuentwicklung verschieben können.

Open-Source-Umgebung

Vorteile von Cloud Dataproc

Cloud Dataproc ist ein verwalteter Apache Spark- und Apache Hadoop-Dienst, der schnell, nutzerfreundlich und kostengünstig ist.

Automatisierte Clusterverwaltung
Dank verwalteter Funktionen für Bereitstellung, Logging und Monitoring können Sie sich voll auf Ihre Daten statt auf die Cluster konzentrieren. Die Cloud Dataproc-Cluster sind stabil, skalierbar und schnell.
Skalierbare Cluster
Sie können Cluster mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Autoscaling-Cluster
Cloud Dataproc-Autoscaling bietet einen Mechanismus für die Automatisierung der Verwaltung von Clusterressourcen und kann automatisch Cluster-Worker (Knoten) hinzufügen oder entfernen.
Integriert in die Cloud
Durch die Integration in Cloud Storage, BigQuery, Cloud Bigtable, Stackdriver Logging, Stackdriver Monitoring und AI Hub erhalten Sie eine vollständige und belastbare Datenplattform.
Versionsverwaltung
Die Image-Versionsverwaltung macht den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools möglich.
Hochverfügbar
Für hochverfügbare Cluster und Jobs lassen sich Cluster mit mehreren Masterknoten im Modus für hohe Verfügbarkeit ausführen und Jobs so einrichten, dass sie bei einem Fehler neu gestartet werden.
Unternehmenssicherheit
Beim Erstellen eines Cloud Dataproc-Clusters können Sie den sicheren Modus von Hadoop über Kerberos aktivieren, indem Sie eine Sicherheitskonfiguration hinzufügen. Darüber hinaus bieten die GCP und Cloud Dataproc zusätzliche Sicherheitsfunktionen, mit denen Sie Ihre Daten schützen können. Einige der am häufigsten verwendeten GCP-spezifischen Sicherheitsfunktionen, die mit Cloud Dataproc verwendet werden, umfassen Standardverschlüsselung von inaktiven Daten, OS Login, VPC Service Controls und vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Key, CMEK).
Planmäßiges Löschen von Clustern
Um Gebühren für inaktive Cluster zu vermeiden, können Sie die Funktion Planmäßiges Löschen von Cloud Dataproc verwenden, mit der Sie einen Cluster nach einem bestimmten Inaktivitätszeitraum, zu einem bestimmten Zeitpunkt oder nach einer bestimmten Zeitspanne löschen können.
Automatische oder manuelle Konfiguration
Cloud Dataproc konfiguriert die Hardware und Software automatisch, gibt Ihnen aber auch manuelle Kontrolle.
Entwicklertools
Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Cloud SDK, RESTful APIs und SSH-Zugriff.
Initialisierungsaktionen
Beim Erstellen des Clusters können Sie Initialisierungsaktionen ausführen, um die benötigten Einstellungen und Bibliotheken zu installieren oder anzupassen.
Optionale Komponenten
Mithilfe von optionalen Komponenten können Sie zusätzliche Komponenten im Cluster installieren und konfigurieren. Optionale Komponenten sind in Cloud Dataproc-Komponenten integriert und bieten vollständig konfigurierte Umgebungen für Zeppelin, Druid, Presto und andere Open-Source-Softwarekomponenten im Zusammenhang mit der Apache Hadoop- und Apache Spark-Umgebung.
Benutzerdefinierte Images
Cloud Dataproc-Cluster können mit einem benutzerdefinierten Image bereitgestellt werden, das die vorinstallierten Pakete Ihres Linux-Betriebssystems enthält.
Flexible virtuelle Maschinen
Für Cluster können benutzerdefinierte Maschinentypen und VMs auf Abruf verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht.
Component Gateway und Notebook-Zugriff
Cloud Dataproc Component Gateway bietet mit einem einzigen Klick sicheren Zugriff auf Weboberflächen von standardmäßigen und optionalen Cloud Dataproc-Komponenten, die auf dem Cluster ausgeführt werden.
Workflowvorlagen
Die Cloud Dataproc-Workflowvorlagen bieten einen flexiblen und benutzerfreundlichen Mechanismus zum Verwalten und Ausführen von Workflows. Eine Workflowvorlage ist eine wiederverwendbare Workflowkonfiguration, die Jobs definiert und Informationen dazu enthält, wo diese Jobs ausgeführt werden sollen.

Cloud Dataproc – Preise

Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster1 verwendet werden, eine geringe gestaffelte Gebühr.

Iowa (us-central1) Oregon (us-west1) Northern Virginia (us-east4) South Carolina (us-east1) Montreal (northamerica-northeast1) São Paulo (southamerica-east1) Belgien (europe-west1) London (europe-west2) Niederlande (europe-west4) Zürich (europe-west6) Frankfurt (europe-west3) Sydney (australia-southeast1) Mumbai (asia-south1) Hongkong (asia-east2) Taiwan (asia-east1) Tokio (asia-northeast1) Osaka (asia-northeast2)
Maschinentyp Preis
Standardmaschinen
1–64 virtuelle CPUs
Maschinen mit großem Arbeitsspeicher
2–64 virtuelle CPUs
Maschinen mit hoher CPU-Leistung
2–64 virtuelle CPUs
Benutzerdefinierte Maschinen
Basierend auf vCPU- und Arbeitsspeichernutzung
Wenn Sie in einer anderen Währung als US-Dollar bezahlen, gelten die Preise, die unter Cloud Platform SKUs für Ihre Währung angegeben sind.

1 Cloud Dataproc berechnet pro virtueller CPU in den Compute Engine-Instanzen, die in Ihrem Cluster während dessen Betrieb verwendet werden, eine geringe gestaffelte Gebühr. Zusätzliche von Cloud Dataproc genutzte Ressourcen, einschließlich Compute Engine-Netzwerk, BigQuery und Cloud Bigtable, werden nutzungsabhängig abgerechnet. Ausführliche Preisinformationen finden Sie in der Preisübersicht.

Empfehlenswerte Blogs

Lesen Sie die neuesten Blogs, um die Open-Source-Datenverarbeitung in der Cloud besser zu verstehen

Highlights der Google Cloud Next '19

Finden Sie heraus, wie Kunden Cloud Dataproc einsetzen, um Kosten zu senken und datenbasierte Entscheidungen in ihrem Unternehmen zu treffen

Cloud Dataproc's Newest Features
video_youtube
How Customers Are Migrating Hadoop to Google Cloud Platform
video_youtube
Democratizing Dataproc
video_youtube
Google Cloud

Nächste Schritte

Lernen und entwickeln

Sie verwenden die GCP zum ersten Mal? Sichern Sie sich zum Einstieg in ein beliebiges GCP-Produkt ein Startguthaben von 300 $.

Benötigen Sie weitere Hilfe?

Unsere Experten unterstützen Sie dabei, die passende Lösung oder den richtigen Partner für Ihre Anforderungen zu finden.

Die auf dieser Seite erwähnten Produkte und Funktionen können sich in der Alpha- oder Betaphase oder im Vorabzugriff befinden. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.

Cloud AI-Produkte entsprechen den hier aufgeführten SLA-Richtlinien. Sie bieten eventuell von anderen Google Cloud-Diensten abweichende Latenz- oder Verfügbarkeitsgarantien.

Feedback geben zu...

Cloud Dataproc