Übersicht über Dataproc in GKE

Mit Dataproc in GKE können Sie Big-Data-Anwendungen mithilfe der Dataproc API jobs in GKE-Clustern ausführen. Erstellen Sie mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API (HTTP-Anfrage oder Cloud-Clientbibliotheken) einen virtuellen Dataproc in GKE-Cluster und senden Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an den Dataproc-Dienst.

Dataproc in GKE unterstützt die Versionen Spark 2.4 und Spark 3.1.

Funktionsweise von Dataproc in GKE

Mit Dataproc in GKE werden virtuelle Dataproc-Cluster in einem GKE-Cluster bereitgestellt. Im Gegensatz zu Dataproc in Compute Engine-Clustern enthalten virtuelle Dataproc in GKE-Cluster keine separaten Master- und Worker-VMs. Wenn Sie einen virtuellen Dataproc in GKE-Cluster erstellen, erstellt Dataproc in GKE stattdessen Knotenpools in einem GKE-Cluster. Dataproc on GKE-Jobs werden in diesen Knotenpools als Pods ausgeführt. Die Knotenpools und die Planung von Pods in den Knotenpools werden von GKE verwaltet.