Dataproc-Dokumentation
Dataproc ist ein verwalteter Apache Spark- und Apache Hadoop-Dienst, mit dem Sie Open-Source-Datentools für Batchverarbeitung, Abfragen, Streaming und maschinelles Lernen nutzen können. Mithilfe der Dataproc-Automatisierung lassen sich Cluster schnell erstellen, einfach verwalten und Kosten senken, weil Sie nicht mehr benötigte Cluster deaktivieren können. Außerdem haben Sie so die Möglichkeit sich stärker auf Jobs und Daten zu konzentrieren. Weitere Informationen
Dokumentationsressourcen
Leitfäden
-
Kurzanleitungen: Console, Befehlszeile, Clientbibliotheken, APIs Explorer – Cluster erstellen oder APIs Explorer – Spark-Job senden
-
Übersicht über Dataproc-Workflow-Vorlagen
-
Kurzanleitung zu Dataproc in GKE
-
Dataproc-Hub konfigurieren
-
Benutzerdefiniertes Dataproc-Image erstellen
-
MapReduce-Job mit dem BigQuery-Connector schreiben
-
Cloud Storage-Connector mit Apache Spark verwenden
-