Mit Dataproc in GKE können Sie Big-Data-Anwendungen mithilfe der Dataproc API jobs
in GKE-Clustern ausführen.
Erstellen Sie mit der Google Cloud Console, der Google Cloud CLI oder der Dataproc API (HTTP-Anfrage oder Cloud-Clientbibliotheken) einen virtuellen Dataproc in GKE-Cluster und senden Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an den Dataproc-Dienst.
Dataproc in GKE unterstützt die Versionen Spark 2.4 und Spark 3.1.
Funktionsweise von Dataproc in GKE
Mit Dataproc in GKE werden virtuelle Dataproc-Cluster in einem GKE-Cluster bereitgestellt. Im Gegensatz zu Dataproc in Compute Engine-Clustern enthalten virtuelle Dataproc in GKE-Cluster keine separaten Master- und Worker-VMs. Wenn Sie einen virtuellen Dataproc in GKE-Cluster erstellen, erstellt Dataproc in GKE stattdessen Knotenpools in einem GKE-Cluster. Dataproc on GKE-Jobs werden in diesen Knotenpools als Pods ausgeführt. Die Knotenpools und die Planung von Pods in den Knotenpools werden von GKE verwaltet.