Dataproc in GKE – Übersicht

Mit Dataproc in GKE können Sie Big-Data-Anwendungen mit der Dataproc jobs API in GKE-Clustern ausführen. Verwenden Sie die Google Cloud Console, die Google Cloud CLI oder die Dataproc API (HTTP-Anfrage oder Cloud-Clientbibliotheken), um einen virtuellen Dataproc on GKE-Cluster zu erstellen. Senden Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an den Dataproc-Dienst.

Dataproc in GKE unterstützt die Versionen von Spark 3.1 und Spark 3.5.

Funktionsweise von Dataproc in GKE

Dataproc on GKE stellt virtuelle Dataproc-Cluster in einem GKE-Cluster bereit. Im Gegensatz zu Dataproc in Compute Engine-Clustern enthalten virtuelle Dataproc-Cluster in GKE keine separaten Master- und Worker-VMs. Wenn Sie stattdessen einen virtuellen Dataproc on GKE-Cluster erstellen, erstellt Dataproc in GKE Knotenpools in einem GKE-Cluster. Jobs von Dataproc in GKE werden als Pods in diesen Knotenpools ausgeführt. Die Knotenpools und die Planung der Pods auf den Knotenpools werden von GKE verwaltet.