Erfahren Sie in der Next-Sitzung zu offenen und integrierten Datenanalysen in Google Cloud , wie Sie Unternehmensanalysen vereinfachen können. Hier klicken

Weiter zu

Dataproc

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Apache Spark, Apache Flink, Presto und mehr als 30 Open-Source-Tools und Frameworks. Verwenden Sie Dataproc für Data-Lake-Modernisierung, ETL und sichere Data Science im globalen Maßstab, vollständig in Google Cloud eingebunden und zu einem Bruchteil der Kosten.

  • action/check_circle_24px Erstellt mit Sketch.

    Offen: Umfangreiche Open-Source-Datenanalysen mit Sicherheit auf Unternehmensniveau ausführen

  • action/check_circle_24px Erstellt mit Sketch.

    Flexibel: Serverlos nutzen oder Cluster auf Google Compute und Kubernetes verwalten 

  • action/check_circle_24px Erstellt mit Sketch.

    Intelligent: Datennutzer durch Einbindung in Vertex AI, BigQuery und Dataplex aktivieren.

  • action/check_circle_24px Erstellt mit Sketch.

    Sicher: Erweiterte Sicherheit wie Kerberos, Apache Ranger und Persönlicher Authentifizierung konfigurieren

  • action/check_circle_24px Erstellt mit Sketch.

    Kostengünstig: 57 % niedrigere Gesamtbetriebskosten im Vergleich zu lokalen Data Lakes mit sekundengenauer Abrechnung

Vorteile

Open-Source-Datenverarbeitung modernisieren

Wenn Sie VMs oder Kubernetes, zusätzlichen Speicher für Presto oder sogar GPUs benötigen, kann Dataproc Ihnen dabei helfen, Ihre Daten- und Analyseverarbeitung durch speziell entwickelte oder serverlose On-Demand-Umgebungen zu beschleunigen.

Intelligentes und nahtloses OSS für Data Science

Ermöglichen Sie Data Scientists und Datenanalysten durch native Einbindung in Vertex AI nahtlose Data-Science-Jobs.

Erweiterte Sicherheit, Compliance und Governance

Nutzerautorisierung und Authentifizierung mithilfe vorhandener Richtlinien von Kerberos und Apache Ranger oder Persönlicher Cluster-Authentifizierung verwalten und umsetzen. Berechtigungen definieren, ohne einen Netzwerkknoten einrichten zu müssen.

Wichtige Features

Wichtige Features

Vollständig verwaltete und automatisierte Big-Data-Open-Source-Software

Mit serverlosem Deployment, Logging und Monitoring können Sie sich auf Ihre Daten und Analysen statt auf die Infrastruktur konzentrieren. Reduzieren Sie die Gesamtbetriebskosten des Apache Spark-Managements um bis zu 57 %. Dank der Einbindung von Vertex AI Workbench können Data Scientists und Data Engineers Modelle fünfmal schneller erstellen und trainieren als herkömmliche Notebooks. Die Dataproc Jobs API vereinfacht die Einbindung großer Datenverarbeitung in benutzerdefinierte Anwendungen, während Dataproc Metastore keine eigene Hive-Metastore- oder Katalogdienste ausführen muss.

Apache Spark-Jobs mit Kubernetes containerisieren

Erstellen Sie Ihre Apache Spark-Jobs mit Dataproc in Kubernetes, sodass Sie Dataproc mit Google Kubernetes Engine (GKE) verwenden können, um Portabilität und Isolierung von Jobs zu ermöglichen.

In Google Cloud integrierte Unternehmenssicherheit

Beim Erstellen eines Dataproc-Clusters können Sie den sicheren Modus von Hadoop über Kerberos aktivieren, indem Sie eine Sicherheitskonfiguration hinzufügen. Zu den am häufigsten mit Dataproc verwendeten Sicherheitsfeatures von Google Cloud zählen darüber hinaus die Standardverschlüsselung von inaktiven Daten, OS Login, VPC Service Controls sowie vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK).

Das Beste von Open Source mit den besten Funktionen von Google Cloud

Mit Dataproc können Sie die Open-Source-Tools, -Algorithmen und -Programmiersprachen, die Sie heute verwenden, auf einfache Weise auf Datasets in Cloud-Größenordnung anwenden. Gleichzeitig verfügt Dataproc über eine sofort einsatzbereite Integration mit dem Rest des Google Cloud Analytics-, Datenbank- und KI-Ökosystems. Data Scientists und Data Engineers können schnell auf Daten zugreifen und Datenanwendungen erstellen, die Dataproc mit BigQuery, Vertex AI und Cloud Spanner, Pub/Sub oder Data Fusion verbinden. 

Alle Features ansehen

Das ist neu

Das ist neu

Melden Sie sich für die Google Cloud-Newsletter an. So erhalten Sie regelmäßig Produktupdates, Veranstaltungsinformationen, Sonderangebote und mehr.

Dokumentation

Dokumentation

APIs und Bibliotheken
Dataproc-Initialisierungsaktionen

Dataproc-Clustern durch vordefinierte Initialisierungsaktionen weitere OSS-Projekte hinzufügen

APIs und Bibliotheken
Open-Source-Connectors

Bibliotheken und Tools für die Apache Hadoop-Interoperabilität

APIs und Bibliotheken
Dataproc-Workflowvorlagen

Die Dataproc WorkflowTemplates API bietet einen flexiblen und benutzerfreundlichen Mechanismus zum Verwalten und Ausführen von Workflows.

Anwendungsfälle

Anwendungsfälle

Anwendungsfall
Hadoop- und Spark-Cluster in die Cloud verlagern

Unternehmen migrieren ihre bestehenden lokalen Apache Hadoop- und Spark-Cluster zu Dataproc, um die Kosten zu senken und von der elastischen Skalierbarkeit zu profitieren. Dataproc bietet Unternehmen vollständig verwaltete, zweckorientierte Cluster, die sich entsprechend dem zu verarbeitenden Daten- oder Analysevolumen automatisiert skalieren lassen.

Alle Features

Alle Features

Skalierbare Cluster Sie können Cluster mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Autoscaling-Cluster Mit der Autoscaling-Funktion von Dataproc können Sie die Verwaltung von Clusterressourcen und das Hinzufügen und Entfernen von Cluster-Workern (Knoten) automatisieren.
Eingebunden in die Cloud Durch die Einbindung in Cloud Storage, BigQuery, Bigtable, Cloud Logging, Cloud Monitoring und AI Hub erhalten Sie eine vollständige und robuste Datenplattform.
Versionsverwaltung Die Image-Versionsverwaltung macht den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools möglich.
Hochverfügbar Für hochverfügbare Cluster und Jobs lassen sich Cluster mit mehreren Hauptknoten im Hochverfügbarkeitsmodus ausführen und Jobs so einrichten, dass sie bei einem Fehler neu gestartet werden.
Planmäßiges Löschen von Clustern Damit für inaktive Cluster keine Kosten anfallen, können Sie diese in Dataproc planmäßig löschen. Dies ist wahlweise nach einer bestimmten Zeit der Inaktivität, zu einem bestimmten Zeitpunkt oder nach einem bestimmten Zeitraum möglich.
Automatische oder manuelle Konfiguration Dataproc konfiguriert die Hardware und Software automatisch. Sie können dies jedoch auch manuell steuern.
Entwicklertools Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Cloud SDK, RESTful APIs und SSH-Zugriff.
Initialisierungsaktionen Beim Erstellen des Clusters können Sie Initialisierungsaktionen ausführen, um die benötigten Einstellungen und Bibliotheken zu installieren oder anzupassen.
Optionale Komponenten Mit optionalen Komponenten können Sie zusätzliche Komponenten im Cluster installieren und konfigurieren. Optionale Komponenten sind in Dataproc-Komponenten eingebunden und bieten vollständig konfigurierte Umgebungen für Zeppelin, Druid, Presto und andere Open-Source-Softwarekomponenten im Zusammenhang mit der Apache Hadoop- und Apache Spark-Umgebung.
Benutzerdefinierte Images Dataproc-Cluster können mit einem benutzerdefinierten Image bereitgestellt werden, das die vorinstallierten Pakete Ihres Linux-Betriebssystems enthält.
Flexible virtuelle Maschinen Für Cluster können benutzerdefinierte Maschinentypen und VMs auf Abruf verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht.
Component Gateway und Notebook-Zugriff Dataproc Component Gateway bietet mit einem einzigen Klick sicheren Zugriff auf die Weboberflächen standardmäßiger und optionaler Dataproc-Komponenten, die im Cluster ausgeführt werden.
Workflowvorlagen Mithilfe der Workflowvorlagen von Dataproc können Sie Workflows flexibel und nutzerfreundlich verwalten und ausführen. Eine Workflowvorlage ist eine wiederverwendbare Workflowkonfiguration, in der Sie Jobs definieren und deren Ausführungsort angeben können.

Preise

Preise

Die Preise für Dataproc richten sich nach der Anzahl der vCPUs sowie deren Ausführungsdauer. Die Preise sind auf Stundenbasis angegeben, aber die Abrechnung erfolgt sekundengenau. Sie zahlen also nur für das, was Sie tatsächlich in Anspruch nehmen.

Beispiel: 6 Cluster (1 Hauptcluster + 5 Worker) von 4 CPUs, die jeweils 2 Stunden ausgeführt werden, kosten 0,48 $.  Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $

Weitere Informationen finden Sie in der Preisübersicht.

Partner

Partner

Dataproc ist mit wichtigen Partnerlösungen kompatibel und dient als Ergänzung Ihrer bestehenden Investitionen und Fertigkeiten.