Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Apache Hadoop, Apache Spark, Apache Flink, Presto und mehr als 30 Open-Source-Tools und Frameworks. Verwenden Sie Dataproc für Data-Lake-Modernisierung, ETL und sichere Data Science im globalen Maßstab, vollständig in Google Cloud eingebunden und zu einem Bruchteil der Kosten.
Offen: Open-Source-Datenanalysen im erforderlichen Maßstab mit Sicherheit auf Unternehmensniveau ausführen
Flexibel: Serverlos nutzen oder Cluster auf Google Compute und Kubernetes verwalten
Sicher: Erweiterte Sicherheit wie Kerberos, Apache Ranger und Persönliche Authentifizierung konfigurieren
Kostengünstig: 54 % niedrigere Gesamtbetriebskosten im Vergleich zu lokalen Data Lakes mit sekundengenauer Abrechnung
Vorteile
Wenn Sie VMs oder Kubernetes, zusätzlichen Speicher für Presto oder sogar GPUs benötigen, kann Dataproc Ihnen dabei helfen, Ihre Daten- und Analyseverarbeitung durch speziell entwickelte oder serverlose On-Demand-Umgebungen zu beschleunigen.
Mit Dataproc, BigLake und Dataplex detaillierte Zugriffskontrollen auf Zeilen- und Spaltenebene erzwingen. Nutzerautorisierung und -authentifizierung mithilfe vorhandener Kerberos- und Apache Ranger-Richtlinien verwalten und erzwingen.
Wichtige Features
Durch serverloses Deployment, Logging und Monitoring können Sie sich ganz auf Ihre Daten und Analysen statt auf die Infrastruktur konzentrieren. Reduzieren Sie die Gesamtbetriebskosten des Apache Spark-Managements um bis zu 54 %. Dank der Einbindung in Vertex AI Workbench können Data Scientists und Entwicklerinnen Modelle im Vergleich zu herkömmlichen Notebooks fünfmal schneller erstellen und trainieren. Die Dataproc Jobs API vereinfacht die Einbindung großer Datenverarbeitung in benutzerdefinierte Anwendungen, während Dataproc Metastore keine eigene Hive-Metastore- oder Katalogdienste ausführen muss.
Erstellen Sie Ihre Apache Spark-Jobs mit Dataproc in Kubernetes, sodass Sie Dataproc mit Google Kubernetes Engine (GKE) verwenden können, um Portabilität und Isolierung von Jobs zu ermöglichen.
Beim Erstellen eines Dataproc-Clusters können Sie den sicheren Modus von Hadoop über Kerberos aktivieren, indem Sie eine Sicherheitskonfiguration hinzufügen. Zu den am häufigsten mit Dataproc verwendeten Sicherheitsfeatures von Google Cloud zählen darüber hinaus die Standardverschlüsselung von inaktiven Daten, OS Login, VPC Service Controls sowie vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK).
Mit Dataproc können Sie die Open-Source-Tools, -Algorithmen und -Programmiersprachen, die Sie heute verwenden, auf einfache Weise auf Datasets in Cloud-Größenordnung anwenden. Gleichzeitig verfügt Dataproc über eine sofort einsatzbereite Einbindung in das restliche Google Cloud Analytics-, Datenbank- und KI-Ökosystem. Data Scientists und Data Engineers können schnell auf Daten zugreifen und Datenanwendungen erstellen, die Dataproc mit BigQuery, Vertex AI und Cloud Spanner, Pub/Sub oder Data Fusion verbinden.
Kunden
Das ist neu
Serverloses Spark ist jetzt allgemein verfügbar. Registrieren Sie sich für eine Vorschau der anderen Spark-in-Google Cloud-Dienste.
Dokumentation
Anwendungsfälle
Unternehmen migrieren ihre bestehenden lokalen Apache Hadoop- und Spark-Cluster zu Dataproc, um die Kosten zu senken und von der elastischen Skalierbarkeit zu profitieren. Dataproc bietet Unternehmen vollständig verwaltete, zweckorientierte Cluster, die sich entsprechend dem zu verarbeitenden Daten- oder Analysevolumen automatisiert skalieren lassen.
Schaffen Sie Ihre optimale Data Science-Umgebung durch Hochfahren eines zweckorientierten Dataproc-Cluster. Binden Sie Open-Source-Software wie Apache Spark, NVIDIA RAPIDS und Jupyter-Notebooks in KI-Dienste und GPUs von Google Cloud ein, um die ML- und KI-Entwicklung zu beschleunigen.
Alle Features
Serverloses Spark | Spark-Anwendungen und -Pipelines mit automatischer Skalierung ohne manuelle Infrastrukturbereitstellung oder -abstimmung bereitstellen. |
Skalierbare Cluster | Sie können Cluster mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren. |
Autoscaling-Cluster | Mit der Autoscaling-Funktion von Dataproc können Sie die Verwaltung von Clusterressourcen und das Hinzufügen und Entfernen von Cluster-Workern (Knoten) automatisieren. |
Eingebunden in die Cloud | Durch die Einbindung in Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Cloud Bigtable, Cloud Logging und Cloud Monitoring erhalten Sie eine vollständige und robuste Datenplattform. |
Versionsverwaltung | Die Image-Versionsverwaltung ermöglicht den Wechsel zwischen unterschiedlichen Versionen von Apache Spark, Apache Hadoop und anderen Tools. |
Planmäßiges Löschen von Clustern | Damit für inaktive Cluster keine Kosten anfallen, können Sie diese in Dataproc planmäßig löschen. Dies ist wahlweise nach einer bestimmten Zeit der Inaktivität, zu einem bestimmten Zeitpunkt oder nach einem bestimmten Zeitraum möglich. |
Automatische oder manuelle Konfiguration | Dataproc konfiguriert die Hardware und Software automatisch. Sie können dies jedoch auch manuell steuern. |
Entwicklertools | Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Cloud SDK, RESTful APIs und SSH-Zugriff. |
Initialisierungsaktionen | Führen Sie beim Erstellen des Clusters Initialisierungsaktionen aus, um die benötigten Einstellungen und Bibliotheken anzupassen. |
Optionale Komponenten | Mit optionalen Komponenten können Sie zusätzliche Komponenten im Cluster installieren und konfigurieren. Optionale Komponenten sind in Dataproc-Komponenten eingebunden und bieten vollständig konfigurierte Umgebungen für Zeppelin, Presto und andere Open-Source-Softwarekomponenten im Zusammenhang mit der Apache Hadoop- und Apache Spark-Umgebung. |
Benutzerdefinierte Container und Images | Das serverlose Spark von Dataproc kann mit benutzerdefinierten Docker-Containern bereitgestellt werden. Dataproc-Cluster können mit einem benutzerdefinierten Image bereitgestellt werden, das die vorinstallierten Pakete Ihres Linux-Betriebssystems enthält. |
Flexible virtuelle Maschinen | Für Cluster können benutzerdefinierte Maschinentypen und VMs auf Abruf verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht. |
Component Gateway und Notebook-Zugriff | Dataproc Component Gateway bietet mit einem einzigen Klick sicheren Zugriff auf die Weboberflächen standardmäßiger und optionaler Dataproc-Komponenten, die im Cluster ausgeführt werden. |
Workflowvorlagen | Mithilfe der Workflowvorlagen von Dataproc können Sie Workflows flexibel und nutzerfreundlich verwalten und ausführen. Eine Workflowvorlage ist eine wiederverwendbare Workflowkonfiguration, die Jobs definiert und Informationen dazu enthält, wo diese Jobs ausgeführt werden sollen. |
Automatisierte Richtlinienverwaltung | Standardisieren Sie Sicherheits-, Kosten- und Infrastrukturrichtlinien für eine Clusterflotte. Sie können Richtlinien für die Ressourcenverwaltung, die Sicherheit oder das Netzwerk auf Projektebene erstellen. Außerdem können Sie Nutzern die Verwendung der richtigen Images, Komponenten, Metastores und anderer Peripheriedienste erleichtern, sodass Sie Ihre Clusterflotte und serverlose Spark-Richtlinien in Zukunft verwalten können. |
Intelligente Benachrichtigungen | Mit empfohlenen Benachrichtigungen von Dataproc können Kunden die Schwellenwerte für die vorkonfigurierten Benachrichtigungen anpassen, um Benachrichtigungen zu inaktiven, außer Kontrolle geratenen Clustern, Jobs und überlasteten Clustern und mehr zu erhalten. Kunden können diese Benachrichtigungen weiter anpassen und sogar erweiterte Cluster- und Jobverwaltungsfunktionen erstellen. Mit diesen Funktionen können Kunden ihre Flotte in großem Umfang verwalten. |
Dataproc Metastore | Vollständig verwalteter, hochverfügbarer Hive Metastore (HMS) mit differenzierter Zugriffssteuerung und Einbindung in BigQuery-Metastore, Dataplex und Data Catalog. |
Preise
Die Preise für Dataproc richten sich nach der Anzahl der vCPUs sowie deren Ausführungsdauer. Die Preise sind auf Stundenbasis angegeben, aber die Abrechnung erfolgt sekundengenau. Sie zahlen also nur für das, was Sie tatsächlich in Anspruch nehmen.
Beispiel: 6 Cluster (1 Hauptcluster + 5 Worker) von 4 CPUs, die jeweils 2 Stunden ausgeführt werden, kosten 0,48 $. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $
Weitere Informationen finden Sie in der Preisübersicht.
Partner
Dataproc ist mit wichtigen Partnerlösungen kompatibel und dient als Ergänzung Ihrer bestehenden Investitionen und Fertigkeiten.
Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennenzulernen.