Dataproc

Apache Spark und Apache Hadoop schneller, einfacher und günstiger ausführen

Kostenlos testen

Cloudnatives Apache Hadoop und Apache Spark

Dataproc ist ein schneller, nutzerfreundlicher, vollständig verwalteter Cloud-Dienst, über den Sie Cluster mit Apache Spark und Apache Hadoop einfacher und günstiger ausführen können. Vorgänge, für die früher Stunden oder Tage notwendig waren, dauern jetzt nur noch Sekunden oder Minuten und dank sekundengenauer Abrechnung bezahlen Sie ausschließlich die tatsächlich genutzten Ressourcen. Dataproc lässt sich auch problemlos in andere Google Cloud Platform-Dienste (GCP) einbinden und bietet Ihnen eine leistungsstarke und umfassende Plattform für Datenverarbeitung, Analyse und maschinelles Lernen.

Verwalteter Hadoop- und Spark-Dienst

Schnelle und skalierbare Datenverarbeitung

Sie können Dataproc-Cluster schnell erstellen und jederzeit in der Größe anpassen (von drei bis zu Hunderten von Knoten). Dies gibt Ihnen die Sicherheit, dass Ihre Cluster den Datenpipelines jederzeit gewachsen sind. Sie können sich auf die Analyse statt auf die Infrastruktur konzentrieren – denn Clusteraktionen nehmen durchschnittlich weniger als 90 Sekunden in Anspruch.

Schnelle und skalierbare Datenverarbeitung

Attraktive Preisgestaltung

Dataproc basiert auf den Preisprinzipien der Google Cloud Platform und zeichnet sich durch geringe Kosten und eine einfach zu verstehende Preisstruktur aus, die auf der tatsächlichen Nutzung, gemessen im Sekundentakt, basiert. Da Dataproc-Cluster außerdem Instanzen auf Abruf, Rabatte für zugesicherte Nutzung und Rabatte für kontinuierliche Nutzung umfassen können, profitieren Sie von einem leistungsstarken Cluster zu niedrigeren Gesamtkosten.

Attraktive Preisgestaltung

Open-Source-Umgebung

Mit Dataproc können Sie Spark- und Hadoop-Tools, -Bibliotheken und -Dokumentationen verwenden. Dataproc stellt regelmäßig Updates für native Versionen von Spark, Hadoop, Pig und Hive zur Verfügung, damit Sie keine neuen Tools oder APIs erlernen müssen und vorhandene Projekte oder ETL-Pipelines ohne Neuentwicklung verschieben können.

Open-Source-Umgebung

Vorteile von Dataproc

Dataproc ist ein verwalteter Apache Spark- und Apache Hadoop-Dienst, der schnell, nutzerfreundlich und kostengünstig ist.

Automatisierte Clusterverwaltung
Dank verwalteter Funktionen für Bereitstellung, Logging und Monitoring können Sie sich voll auf Ihre Daten statt auf die Cluster konzentrieren. Die Dataproc-Cluster sind stabil, skalierbar und schnell.
Skalierbare Cluster
Sie können Cluster mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Autoscaling-Cluster
Dataproc-Autoscaling bietet einen Mechanismus für die Automatisierung der Verwaltung von Clusterressourcen und kann automatisch Cluster-Worker (Knoten) hinzufügen oder entfernen.
Integriert in die Cloud
Durch die Einbindung in Cloud Storage, BigQuery, Bigtable, Stackdriver Logging, Stackdriver Monitoring und AI Hub erhalten Sie eine vollständige und belastbare Datenplattform.
Versionsverwaltung
Die Image-Versionsverwaltung ermöglicht den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools.
Hochverfügbar
Für hochverfügbare Cluster und Jobs lassen sich Cluster mit mehreren Masterknoten im Hochverfügbarkeitsmodus ausführen und Jobs so einrichten, dass sie bei einem Fehler neu gestartet werden.
Unternehmenssicherheit
Beim Erstellen eines Dataproc-Clusters können Sie den sicheren Modus von Hadoop über Kerberos aktivieren. Dazu fügen Sie eine Sicherheitskonfiguration hinzu. Außerdem bieten die GCP und Dataproc zusätzliche Sicherheitsfunktionen, mit denen Sie Ihre Daten schützen können. Einige der am häufigsten verwendeten GCP-spezifischen Sicherheitsfunktionen, die mit Dataproc eingesetzt werden, umfassen Standardverschlüsselung von inaktiven Daten, OS Login, VPC Service Controls und vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Key, CMEK).
Planmäßiges Löschen von Clustern
Um Gebühren für inaktive Cluster zu vermeiden, können Sie die Funktion Planmäßiges Löschen von Cloud Dataproc verwenden, mit der Sie einen Cluster nach einem bestimmten Inaktivitätszeitraum, zu einem bestimmten Zeitpunkt oder nach einer bestimmten Zeitspanne löschen können.
Automatische oder manuelle Konfiguration
Dataproc konfiguriert die Hardware und Software automatisch, gibt Ihnen aber auch manuelle Kontrolle.
Entwicklertools
Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Cloud SDK, RESTful APIs und SSH-Zugriff.
Initialisierungsaktionen
Beim Erstellen des Clusters können Sie Initialisierungsaktionen ausführen, um die benötigten Einstellungen und Bibliotheken zu installieren oder anzupassen.
Optionale Komponenten
Mithilfe von optionalen Komponenten können Sie zusätzliche Komponenten im Cluster installieren und konfigurieren. Optionale Komponenten sind in Dataproc-Komponenten eingebunden und bieten vollständig konfigurierte Umgebungen für Zeppelin, Druid, Presto und andere Open-Source-Softwarekomponenten im Zusammenhang mit der Apache Hadoop- und Apache Spark-Umgebung.
Benutzerdefinierte Images
Dataproc-Cluster können mit einem benutzerdefinierten Image bereitgestellt werden, das die vorinstallierten Pakete Ihres Linux-Betriebssystems enthält.
Flexible virtuelle Maschinen
Für Cluster können benutzerdefinierte Maschinentypen und VMs auf Abruf verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht.
Component Gateway und Notebook-Zugriff
Dataproc Component Gateway bietet mit einem einzigen Klick sicheren Zugriff auf Weboberflächen von standardmäßigen und optionalen Dataproc-Komponenten, die auf dem Cluster ausgeführt werden.
Workflow-Vorlagen
Die Workflow-Vorlagen von Dataproc bieten einen flexiblen und benutzerfreundlichen Mechanismus zum Verwalten und Ausführen von Workflows. Eine Workflow-Vorlage ist eine wiederverwendbare -Workflow-Konfiguration, die Jobs definiert und Informationen dazu enthält, wo diese Jobs ausgeführt werden sollen.

Dataproc-Preise

Dataproc berechnet pro virtueller CPU für die in Ihrem Cluster verwendeten Compute Engine-Instanzen eine geringe gestaffelte Gebühr.1

Empfehlenswerte Blogs

Lesen Sie die neuesten Blogs, um die Open-Source-Datenverarbeitung in der Cloud besser zu verstehen

Highlights der Cloud Next '19

Finden Sie heraus, wie Kunden Dataproc einsetzen, um Kosten zu senken und datenbasierte Entscheidungen in ihrem Unternehmen zu treffen.

Cloud Dataproc's Newest Features
video_youtube
How Customers Are Migrating Hadoop to Google Cloud Platform
video_youtube
Democratizing Dataproc
video_youtube
Google Cloud

Jetzt starten

Lernen und entwickeln

Sie verwenden die GCP zum ersten Mal? Sichern Sie sich zum Einstieg in ein beliebiges GCP-Produkt ein Startguthaben von 300 $.

Benötigen Sie weitere Hilfe?

Unsere Experten unterstützen Sie dabei, die passende Lösung oder den richtigen Partner für Ihre Anforderungen zu finden.

Die auf dieser Seite genannten Produkte sind in der Alpha-, Beta- oder Early Access-Version verfügbar. Weitere Informationen zu unseren Markteinführungsphasen finden Sie hier.

KI-Produkte von Google Cloud entsprechen den hier aufgeführten SLA-Richtlinien. Sie bieten eventuell von anderen Google Cloud-Diensten abweichende Latenz- oder Verfügbarkeitsgarantien.