Dataproc ist ein verwalteter Spark- und Hadoop-Dienst, mit dem Sie Open-Source-Datentools für Batchverarbeitung, Abfragen, Streaming und maschinelles Lernen nutzen können. Mithilfe der Dataproc-Automatisierung lassen sich Cluster schnell erstellen, einfach verwalten und Kosten senken, weil Sie nicht mehr benötigte Cluster deaktivieren können. Da Sie weniger Zeit und Geld für die Verwaltung aufwenden, können Sie sich besser auf Ihre Jobs und Daten konzentrieren.
Welche Vorteile bietet Dataproc?
Im Vergleich zu herkömmlichen lokalen Produkten und konkurrierenden Cloud-Diensten bietet Dataproc eine Reihe einzigartiger Vorteile für Cluster mit drei bis Hunderten von Knoten:
- Kostengünstig – Bei Dataproc fallen zusätzlich zu den Gebühren für die anderen von Ihnen genutzten Cloud Platform-Ressourcen Kosten von lediglich 1 Cent pro virtueller CPU im Cluster pro Stunde an. Zusätzlich zu diesem niedrigen Preis können Dataproc-Cluster Instanzen auf Abruf mit niedrigeren Berechnungspreisen umfassen. Somit sind weitere Kosteneinsparungen möglich. Statt auf die nächste Stunde aufzurunden, berechnet Dataproc lediglich die tatsächliche Nutzung. Die Abrechnung erfolgt pro Sekunde bei einem Mindestzeitraum von einer Minute.
- Super schnell – Ohne die Verwendung von Dataproc kann es zwischen fünf und 30 Minuten dauern, bis Spark- und Hadoop-Cluster vor Ort oder über IaaS-Anbieter erstellt werden. Im Vergleich dazu lassen sich Dataproc-Cluster schnell starten, skalieren und herunterfahren. Jeder dieser Vorgänge nimmt im Durchschnitt weniger als 90 Sekunden in Anspruch. Aufgrund der geringen Wartezeiten in Verbindung mit Cluster-Vorgängen haben Sie nun mehr Zeit für die Bearbeitung von Daten.
- Eingebunden: Dataproc lässt sich in andere Dienste der Google Cloud Platform einbinden, z. B. BigQuery, Cloud Storage, Cloud Bigtable, Cloud Logging und Cloud Monitoring. Sie haben also mehr als nur einen Spark- oder Hadoop-Cluster. Sie haben eine komplette Datenplattform. Sie können Dataproc beispielsweise dazu verwenden, um ETL-Terabyte von Log-Rohdaten mühelos und direkt in BigQuery für die Geschäftsberichterstattung zu importieren.
- Verwaltet – Nutzen Sie Spark- und Hadoop-Cluster ohne die Unterstützung eines Administrators oder spezieller Software. Sie können ganz einfach mit Clustern und Spark- oder Hadoop-Jobs über die Google Cloud -Konsole, das Cloud SDK oder die Dataproc REST API interagieren. Wenn Sie mit einem Cluster fertig sind, können Sie ihn einfach deaktivieren, sodass Sie kein Geld für einen inaktiven Cluster ausgeben. Sie müssen sich keine Sorgen über Datenverluste machen, da Dataproc in Cloud Storage, BigQuery und Cloud Bigtable eingebunden ist.
- Einfach und vertraut: Sie müssen keine neuen Tools oder APIs erlernen, um Dataproc verwenden zu können. So können Sie vorhandene Projekte ganz einfach ohne Neuentwicklung in Dataproc verschieben. Spark, Hadoop, Pig und Hive werden häufig aktualisiert, sodass Sie schneller produktiv sein können.
Leistungsumfang von Dataproc
Eine Liste der von Dataproc unterstützten Open-Source- (Hadoop, Spark, Hive und Pig) und Google Cloud Platform Connector-Versionen finden Sie in der Dataproc-Versionsliste.
Erste Schritte mit Dataproc
Kurzanleitungen für Dataproc, um schnell loszulegen. Sie haben folgende Möglichkeiten, um auf Dataproc zuzugreifen:
- Über die REST API
- Über Cloud SDK
- Über die Dataproc-UI
- Über die Cloud-Clientbibliotheken