Dataproc in GKE – Übersicht

Mit Dataproc in GKE können Sie Big-Data-Anwendungen mithilfe der Dataproc jobs API für GKE-Cluster Google Cloud Console, Google Cloud CLI oder Dataproc API verwenden (HTTP-Anfrage oder Cloud-Clientbibliotheken) an Erstellen Sie einen virtuellen Dataproc on GKE-Cluster, und senden Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an die Dataproc- .

Dataproc on GKE unterstützt Spark 3.1- und Spark 3.5-Versionen.

Funktionsweise von Dataproc in GKE

Dataproc on GKE stellt virtuelle Dataproc-Cluster auf GKE-Cluster. „Mag ich“-Bewertung entfernen Dataproc in Compute Engine-Clustern Virtuelle Dataproc on GKE-Cluster enthalten keine separaten Master- und Worker-VMs. Wenn Sie stattdessen einen virtuellen Dataproc-Cluster in GKE erstellen, Dataproc in GKE erstellt Knotenpools in einem GKE-Cluster. Dataproc in GKE Jobs werden als Pods auf diesen Knotenpools ausgeführt. Die Knotenpools und Die Planung von Pods in den Knotenpools wird von GKE verwaltet.