Dataproc

Mit Dataproc können Sie Open-Source-Daten und -Analysen schnell, einfach und sicher in der Cloud verarbeiten.

Dataproc kostenlos testen
  • action/check_circle_24px Erstellt mit Sketch

    Autoscaling-Cluster in 90 Sekunden auf benutzerdefinierten Maschinen einrichten

  • action/check_circle_24px Erstellt mit Sketch

    Vollständig verwaltete Apache Spark-, Apache Hadoop-, Presto- und andere OSS-Cluster erstellen

  • action/check_circle_24px Erstellt mit Sketch

    Gesamtbetriebskosten von OSS durch nutzungsbasierte Abrechnung der Ressourcen senken

  • action/check_circle_24px Erstellt mit Sketch

    Verschlüsselung und einheitliche Sicherheitsfunktionen in allen Clustern

  • action/check_circle_24px Erstellt mit Sketch

    Data Science durch zweckorientierte Cluster beschleunigen

Schneller benutzerdefinierte OSS-Cluster auf benutzerdefinierten Maschinen erstellen

Wenn Sie für Presto oder GPUs für das maschinelle Lernen mit Apache Spark zusätzlichen Speicher benötigen, können Sie mit Dataproc in nur 90 Sekunden ein zweckorientiertes Cluster einrichten, um die Datenanalyse zu beschleunigen.

Einfache und erschwingliche Clusterverwaltung

Profitieren Sie von Dataproc-Funktionen wie Autoscaling, dem automatischen Löschen inaktiver Daten und sekundengenauer Abrechnung, um die Gesamtbetriebskosten von OSS zu senken und Zeit und Ressourcen für andere Aufgaben freizugeben.

Von Haus aus sicher

Die standardmäßige Verschlüsselung sorgt dafür, dass Ihre Daten durchgängig geschützt sind. Mit JobsAPI und Component Gateway können Sie Berechtigungen für Cloud IAM-Cluster festlegen, ohne Netzwerk- oder Gatewayknoten einrichten zu müssen.

Wichtige Features

Automatisierte Clusterverwaltung

Dank verwalteter Funktionen für Bereitstellung, Logging und Monitoring können Sie sich voll auf Ihre Daten statt auf die Cluster konzentrieren. Die Dataproc-Cluster sind stabil, skalierbar und schnell.

OSS-Jobs containerisieren

Wenn Sie OSS-Jobs (z. B. Apache Spark) in Dataproc einrichten, können Sie diese mit Kubernetes schnell containerisieren und in einem beliebigen GKE-Cluster bereitstellen.

Unternehmenssicherheit

Beim Erstellen eines Dataproc-Clusters können Sie den sicheren Modus von Hadoop über Kerberos aktivieren, indem Sie eine Sicherheitskonfiguration hinzufügen. Zu den am häufigsten mit Dataproc verwendeten Sicherheitsfeatures von Google Cloud zählen darüber hinaus die Standardverschlüsselung von inaktiven Daten, OS Login, VPC Service Controls sowie vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK).

Alle Features ansehen

Dokumentation

APIs und Bibliotheken
Dataproc-Initialisierungsaktionen

Dataproc-Clustern durch vordefinierte Initialisierungsaktionen weitere OSS-Projekte hinzufügen

APIs und Bibliotheken
Open-Source-Connectors

Bibliotheken und Tools für die Apache Hadoop-Interoperabilität

Anwendungsfälle

Anwendungsfall
Hadoop- und Spark-Cluster in die Cloud verlagern

Unternehmen migrieren ihre bestehenden lokalen Apache Hadoop- und Spark-Cluster zu Dataproc, um die Kosten zu senken und von der elastischen Skalierbarkeit zu profitieren. Dataproc bietet Unternehmen vollständig verwaltete, zweckorientierte Cluster, die sich entsprechend dem zu verarbeitenden Daten- oder Analysevolumen automatisiert skalieren lassen.

Anwendungsfall
Data Science in Dataproc

Schaffen Sie Ihre optimale Data Science-Umgebung durch flexibel hoch- und herunterfahrbare zweckorientierte Dataproc-Cluster. Binden Sie Open-Source-Software wie Apache Spark, NVIDIA RAPIDS und Jupyter-Notebooks in KI-Dienste und GPUs von Google Cloud ein, um die ML- und KI-Entwicklung zu beschleunigen. 

Alle Features

Skalierbare Cluster Sie können Cluster mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Autoscaling-Cluster Mit der Autoscaling-Funktion von Dataproc können Sie die Verwaltung von Clusterressourcen und das Hinzufügen und Entfernen von Cluster-Workern (Knoten) automatisieren.
Eingebunden in die Cloud Durch die Einbindung in Cloud Storage, BigQuery, Bigtable, Cloud Logging, Cloud Monitoring und AI Hub erhalten Sie eine vollständige und robuste Datenplattform.
Versionsverwaltung Die Image-Versionsverwaltung macht den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools möglich.
Hochverfügbar Für hochverfügbare Cluster und Jobs lassen sich Cluster mit mehreren Masterknoten im Hochverfügbarkeitsmodus ausführen und Jobs so einrichten, dass sie bei einem Fehler neu gestartet werden.
Planmäßiges Löschen von Clustern Damit für inaktive Cluster keine Kosten anfallen, können Sie diese in Dataproc planmäßig löschen. Dies ist wahlweise nach einer bestimmten Zeit der Inaktivität, zu einem bestimmten Zeitpunkt oder nach einem bestimmten Zeitraum möglich.
Automatische oder manuelle Konfiguration Dataproc konfiguriert die Hardware und Software automatisch. Sie können dies jedoch auch manuell steuern.
Entwicklertools Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Cloud SDK, RESTful APIs und SSH-Zugriff.
Initialisierungsaktionen Beim Erstellen des Clusters können Sie Initialisierungsaktionen ausführen, um die benötigten Einstellungen und Bibliotheken zu installieren oder anzupassen.
Optionale Komponenten Mit optionalen Komponenten können Sie zusätzliche Komponenten im Cluster installieren und konfigurieren. Optionale Komponenten sind in Dataproc-Komponenten eingebunden und bieten vollständig konfigurierte Umgebungen für Zeppelin, Druid, Presto und andere Open-Source-Softwarekomponenten im Zusammenhang mit der Apache Hadoop- und Apache Spark-Umgebung.
Benutzerdefinierte Images Dataproc-Cluster können mit einem benutzerdefinierten Image bereitgestellt werden, das die vorinstallierten Pakete Ihres Linux-Betriebssystems enthält.
Flexible virtuelle Maschinen Für Cluster können benutzerdefinierte Maschinentypen und VMs auf Abruf verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht.
Component Gateway und Notebook-Zugriff Dataproc Component Gateway bietet mit einem einzigen Klick sicheren Zugriff auf die Weboberflächen standardmäßiger und optionaler Dataproc-Komponenten, die im Cluster ausgeführt werden.
Workflowvorlagen Mithilfe der Workflowvorlagen von Dataproc können Sie Workflows flexibel und nutzerfreundlich verwalten und ausführen. Eine Workflowvorlage ist eine wiederverwendbare Workflowkonfiguration, in der Sie Jobs definieren und deren Ausführungsort angeben können.

Preise

Die Preise für Dataproc richten sich nach der Anzahl der vCPUs sowie deren Ausführungsdauer. Die Preise sind auf Stundenbasis angegeben, aber die Abrechnung erfolgt sekundengenau. Sie zahlen also nur für das, was Sie tatsächlich in Anspruch nehmen. Weitere Informationen finden Sie in der Preisübersicht.

Partner

Dataproc ist mit wichtigen Partnerlösungen kompatibel und dient als Ergänzung Ihrer bestehenden Investitionen und Fertigkeiten.