Dataproc

Bringen Sie eine vorkonfigurierte Lösung auf den Markt, die Data Lakes und Data Warehouses zum Speichern, Verarbeiten und Analysieren von strukturierten und unstrukturierten Daten vereinheitlicht. Kostenlos testen

Weiter zu

Dataproc

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Ausführung von Apache Hadoop, Apache Spark, Apache Flink, Presto und mehr als 30 Open-Source-Tools und Frameworks. Verwenden Sie Dataproc für Data-Lake-Modernisierung, ETL und sichere Data Science im globalen Maßstab, vollständig in Google Cloud eingebunden und zu einem Bruchteil der Kosten.

Dataproc kostenlos testen

Flexibel: Serverlos nutzen oder Cluster auf Google Compute und Kubernetes verwalten. Stellen Sie eine von Google empfohlene Lösung bereit, die Data Lakes und Data Warehouses zum Speichern, Verarbeiten und Analysieren von strukturierten und unstrukturierten Daten vereinheitlicht.
Offen: Open-Source-Datenanalysen im erforderlichen Maßstab mit Sicherheit auf Unternehmensniveau ausführen
Intelligent: Datennutzer durch Einbindung in Vertex AI, BigQuery und Dataplex aktivieren.
Sicher: Erweiterte Sicherheit wie Kerberos, Apache Ranger und Persönliche Authentifizierung konfigurieren
Kostengünstig: 54 % niedrigere Gesamtbetriebskosten im Vergleich zu lokalen Data Lakes mit sekundengenauer Abrechnung

Dataproc-Symbol in der Mitte eines Rings von Logos: Apache Spark, Presto, Hive, Jupyter, Hadoop, Flink, Apache Pig

VIDEO

Dataproc unterstützt beliebte OSS wie Apache Spark, Presto, Flink und weitere.

1:23

Vorteile

Open-Source-Datenverarbeitung modernisieren

Intelligentes und nahtloses Open-Source-Softwarecode für Data Science

Ermöglichen Sie Data Scientists und Datenanalysten durch eine native Einbindung in BigQuery, Dataplex, Vertex AI und OSS-Notebooks wie JupyterLab nahtlose Data-Science-Jobs.

In Google Cloud integrierte Unternehmenssicherheit

Sicherheitsfeatures wie die standardmäßige Verschlüsselung ruhender Daten, OS Login, VPC Service Controls und vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK). Aktivieren Sie den sicheren Modus von Hadoop über Kerberos, indem Sie eine Sicherheitskonfiguration hinzufügen.

Wichtige Features

Vollständig verwaltete und automatisierte Big-Data-Open-Source-Software

Durch serverloses Deployment, Logging und Monitoring können Sie sich ganz auf Ihre Daten und Analysen statt auf die Infrastruktur konzentrieren. Reduzieren Sie die Gesamtbetriebskosten des Apache Spark-Managements um bis zu 54 %. Dank der Einbindung in Vertex AI Workbench können Data Scientists und Entwicklerinnen Modelle im Vergleich zu herkömmlichen Notebooks fünfmal schneller erstellen und trainieren. Die Dataproc Jobs API vereinfacht die Einbindung großer Datenverarbeitung in benutzerdefinierte Anwendungen, während Dataproc Metastore keine eigene Hive-Metastore- oder Katalogdienste ausführen muss.

Apache Spark-Jobs mit Kubernetes containerisieren

Erstellen Sie Ihre Apache Spark-Jobs mit Dataproc in Kubernetes, sodass Sie Dataproc mit Google Kubernetes Engine (GKE) verwenden können, um Portabilität und Isolierung von Jobs zu ermöglichen.

In Google Cloud integrierte Unternehmenssicherheit

Beim Erstellen eines Dataproc-Clusters können Sie den sicheren Modus von Hadoop über Kerberos aktivieren, indem Sie eine Sicherheitskonfiguration hinzufügen. Zu den am häufigsten mit Dataproc verwendeten Sicherheitsfeatures von Google Cloud zählen darüber hinaus die Standardverschlüsselung von inaktiven Daten, OS Login, VPC Service Controls sowie vom Kunden verwaltete Verschlüsselungsschlüssel (Customer Managed Encryption Keys, CMEK).

Das Beste von Open Source mit den besten Funktionen von Google Cloud

Mit Dataproc können Sie die Open-Source-Tools, -Algorithmen und -Programmiersprachen, die Sie heute verwenden, auf einfache Weise auf Datasets in Cloud-Größenordnung anwenden. Gleichzeitig verfügt Dataproc über eine sofort einsatzbereite Einbindung in das restliche Google Cloud Analytics-, Datenbank- und KI-Ökosystem. Data Scientists und Data Engineers können schnell auf Daten zugreifen und Datenanwendungen erstellen, die Dataproc mit BigQuery, Vertex AI, Cloud Spanner, Pub/Sub oder Data Fusion verbinden.

Alle Features ansehen

Miniaturansicht eines Bankgebäudes mit einer Tabelle links und einem Mobiltelefon rechts

3:39

Demo: Sehen Sie sich an, wie die Kreditbearbeitung mit Dataproc und Cloud Storage beschleunigt wird

Kunden

Von Kunden lernen, die Dataproc nutzen

Blog post

Broadcom modernisiert seinen Data Lake mit Dataproc und ermöglicht die flexible Datenverwaltung

Lesezeit: 5 Minuten

Case study

Dataproc bietet Wayfair einen hochleistungsfähigen, wartungsarmen Zugriff auf unstrukturierte Daten im großen Maßstab.

Lesezeit: 8 Minuten

Video

Die Vodafone Group verlagert 600 lokale Apache Hadoop-Server in die Cloud.

47:17

Case study

Twitter verlagerte lokalen Hadoop-Speicher in Google Cloud, um Daten kosteneffektiver speichern und abrufen zu können.

49:57

Case study

Pandora migrierte über 7 PB Daten von seinem lokalen Hadoop-Speicher zu Google Cloud, um die Skalierung zu verbessern und die Kosten zu senken.

50:51

Case study

METRO reduziert seine Infrastrukturkosten durch das flexible Hoch- und Herunterfahren von Dataproc-Clustern um 30–50 %.

Lesezeit: 5 Minuten

Alle Kunden ansehen

Das ist neu

Serverloses Spark ist jetzt allgemein verfügbar. Registrieren Sie sich für eine Vorschau der anderen Spark-in-Google Cloud-Dienste.

Blog post

Serverless Spark jobs made seamless for all data usersWeitere Informationen

Blog post

Zusammenführen von Architekturen: Data Lakes und Data Warehouses zusammenführenBlog lesen

Blog post

Neuer Leitfaden mit Best Practices für DataprocWeitere Informationen

Blog post

Neue GA Dataproc-Features erweitern Data-Science- und ML-FunktionenWeitere Informationen

Dokumentation

Google Cloud Basics

Serverloses Spark

Senden Sie Spark-Jobs, die automatisch bereitgestellt und automatisch skaliert werden. Weitere Informationen finden Sie unten über den Link zur Kurzanleitung.

Weitere Informationen

APIs & Libraries

Dataproc-Initialisierungsaktionen

Dataproc-Clustern durch vordefinierte Initialisierungsaktionen weitere OSS-Projekte hinzufügen.

Weitere Informationen

APIs & Libraries

Open-Source-Connectors

Bibliotheken und Tools für die Apache Hadoop-Interoperabilität

Weitere Informationen

APIs & Libraries

Dataproc-Workflowvorlagen

Die Dataproc WorkflowTemplates API bietet einen flexiblen und benutzerfreundlichen Mechanismus zum Verwalten und Ausführen von Workflows.

Weitere Informationen

Suchen Sie nach etwas anderem?

Gesamte Produktdokumentation lesen

Versionshinweise

Hier erfahren Sie mehr über die neuesten Releases für Dataproc.

Anwendungsfälle

Anwendungsfall

Hadoop- und Spark-Cluster in die Cloud verlagern

Unternehmen migrieren ihre bestehenden lokalen Apache Hadoop- und Spark-Cluster zu Dataproc, um die Kosten zu senken und von der elastischen Skalierbarkeit zu profitieren. Dataproc bietet Unternehmen vollständig verwaltete, zweckorientierte Cluster, die sich entsprechend dem zu verarbeitenden Daten- oder Analysevolumen automatisiert skalieren lassen.

Best practice

Migrationsanleitung für Apache Spark

Sie brauchen Ihren Spark-Code in Google Cloud nicht neu zu schreiben.

Weitere Informationen

Best practice

HDFS-Daten zu Google Cloud migrieren

Hier erfahren Sie, wann und wie Sie Ihre lokalen HDFS-Daten zu Google Cloud Storage migrieren sollten.

Weitere Informationen

Best practice

Lokale Sicherheitskontrollen in Dataproc verlagern

Migrieren Sie vorhandene Sicherheitskontrollen zu Dataproc, um die Complianceanforderungen Ihres Unternehmens und der Branche zu erfüllen.

Weitere Informationen

Anwendungsfall

Data Science in Dataproc

Schaffen Sie Ihre optimale Data Science-Umgebung durch Hochfahren eines zweckorientierten Dataproc-Cluster. Binden Sie Open-Source-Software wie Apache Spark, NVIDIA RAPIDS und Jupyter-Notebooks in KI-Dienste und GPUs von Google Cloud ein, um die ML- und KI-Entwicklung zu beschleunigen.

Tutorial

Dataproc und Apache Spark ML für maschinelles Lernen verwenden

Binden Sie Dataproc in andere Google Cloud-Dienste ein, um eine durchgängige Data Science-Umgebung zu schaffen.

Weitere Informationen

Best practice

IT-gesteuerte Open-Source-Data Science mit Dataproc Hub

Hier erfahren Sie, wie Sie mit Dataproc Hub Ihren Data Scientists alle Open-Source-Tools bereitstellen können, die sie benötigen, und das auf eine IT-gesteuerte und kostenkontrollierte Weise.

Weitere Informationen

Tutorial

Dataproc meets TensorFlow on YARN

In diesem Blog erfahren Sie, wie Sie verteilte TensorFlow-Arbeitslasten mit TonY orchestrieren.

Weitere Informationen

Alle technischen Anleitungen ansehen

Alle Features

Serverloses Spark	Spark-Anwendungen und -Pipelines mit automatischer Skalierung ohne manuelle Infrastrukturbereitstellung oder -abstimmung bereitstellen.
Skalierbare Cluster	Sie können Cluster mit diversen VM-Typen, Laufwerksgrößen, Knoten und Netzwerkoptionen schnell erstellen und skalieren.
Autoscaling-Cluster	Mit der Autoscaling-Funktion von Dataproc können Sie die Verwaltung von Clusterressourcen und das Hinzufügen und Entfernen von Cluster-Workern (Knoten) automatisieren.
Eingebunden in die Cloud	Durch die Einbindung in Cloud Storage, BigQuery, Dataplex, Vertex AI, Composer, Cloud Bigtable, Cloud Logging und Cloud Monitoring erhalten Sie eine vollständige und robuste Datenplattform.
Automatische oder manuelle Konfiguration	Dataproc konfiguriert die Hardware und Software automatisch. Sie können dies jedoch auch manuell steuern.
Entwicklertools	Es stehen Ihnen mehrere Möglichkeiten zum Verwalten eines Clusters offen, einschließlich nutzerfreundlicher Web-UI, Cloud SDK, RESTful APIs und SSH-Zugriff.
Initialisierungsaktionen	Führen Sie beim Erstellen des Clusters Initialisierungsaktionen aus, um die benötigten Einstellungen und Bibliotheken anzupassen.
Optionale Komponenten	Mit optionalen Komponenten können Sie zusätzliche Komponenten im Cluster installieren und konfigurieren. Optionale Komponenten sind in Dataproc-Komponenten eingebunden und bieten vollständig konfigurierte Umgebungen für Zeppelin, Presto und andere Open-Source-Softwarekomponenten im Zusammenhang mit der Apache Hadoop- und Apache Spark-Umgebung.
Benutzerdefinierte Container und Images	Das serverlose Spark von Dataproc kann mit benutzerdefinierten Docker-Containern bereitgestellt werden. Dataproc-Cluster können mit einem benutzerdefinierten Image bereitgestellt werden, das die vorinstallierten Pakete Ihres Linux-Betriebssystems enthält.
Flexible virtuelle Maschinen	Für Cluster können benutzerdefinierte Maschinentypen und VMs auf Abruf verwendet werden, sodass die Größe genau Ihren Anforderungen entspricht.
Workflowvorlagen	Mithilfe der Workflowvorlagen von Dataproc können Sie Workflows flexibel und nutzerfreundlich verwalten und ausführen. Eine Workflowvorlage ist eine wiederverwendbare Workflowkonfiguration, die Jobs definiert und Informationen dazu enthält, wo diese Jobs ausgeführt werden sollen.
Automatisierte Richtlinienverwaltung	Standardisieren Sie Sicherheits-, Kosten- und Infrastrukturrichtlinien für eine Clusterflotte. Sie können Richtlinien für die Ressourcenverwaltung, die Sicherheit oder das Netzwerk auf Projektebene erstellen. Außerdem können Sie Nutzern die Verwendung der richtigen Images, Komponenten, Metastores und anderer Peripheriedienste erleichtern, sodass Sie Ihre Clusterflotte und serverlose Spark-Richtlinien in Zukunft verwalten können.
Intelligente Benachrichtigungen	Mit empfohlenen Benachrichtigungen von Dataproc können Kunden die Schwellenwerte für die vorkonfigurierten Benachrichtigungen anpassen, um Benachrichtigungen zu inaktiven, außer Kontrolle geratenen Clustern, Jobs und überlasteten Clustern und mehr zu erhalten. Kunden können diese Benachrichtigungen weiter anpassen und sogar erweiterte Cluster- und Jobverwaltungsfunktionen erstellen. Mit diesen Funktionen können Kunden ihre Flotte in großem Umfang verwalten.
Dataproc in Google Distributed Cloud (GDC)	Mit Dataproc auf GDC können Sie Spark auf der GDC Edge Appliance in Ihrem Rechenzentrum ausführen. Jetzt können Sie dieselben Spark-Anwendungen sowohl in Google Cloud als auch für sensible Daten in Ihrem Rechenzentrum verwenden.
Multiregionaler Dataproc Metastore	Dataproc Metastore ist ein vollständig verwalteter, hochverfügbarer Hive-Metastore (HMS) mit detaillierter Zugriffssteuerung. Der multiregionale Dataproc Metastore bietet Aktiv/Aktiv-DR und Ausfallsicherheit bei regionalen Ausfällen.

Preise

Die Preise für Dataproc richten sich nach der Anzahl der vCPUs sowie deren Ausführungsdauer. Die Preise sind auf Stundenbasis angegeben, aber die Abrechnung erfolgt sekundengenau. Sie zahlen also nur für das, was Sie tatsächlich in Anspruch nehmen.

Beispiel: Ein Cluster mit 6 Knoten (1 Hauptcluster und 5 Worker) von 4 CPUs, die jeweils 2 Stunden lang ausgeführt werden, kosten 0,48 $. Dataproc-Gebühren = Anzahl der vCPUs * Stunden * Dataproc-Preis = 24 * 2 * 0,01 $ = = 0,48 $

Weitere Informationen finden Sie in der Preisübersicht.

Preisangaben aufrufen

Partner

Dataproc ist mit wichtigen Partnerlösungen kompatibel und dient als Ergänzung Ihrer bestehenden Investitionen und Fertigkeiten.