Dataproc on GKE – Übersicht

Mit Dataproc on GKE können Sie Big-Data-Anwendungen mit der Dataproc jobs API auf GKE-Clustern ausführen. Google Cloud Console, Google Cloud CLI oder Dataproc API verwenden (HTTP-Anfrage oder Cloud-Clientbibliotheken) an Erstellen Sie einen virtuellen Dataproc on GKE-Cluster, und senden Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an die Dataproc- Service.

Dataproc on GKE unterstützt Spark 3.5-Versionen.

Funktionsweise von Dataproc in GKE

Dataproc on GKE stellt virtuelle Dataproc-Cluster auf GKE-Cluster. „Mag ich“-Bewertung entfernen Dataproc in Compute Engine-Clustern Virtuelle Dataproc on GKE-Cluster enthalten keine separaten Master- und Worker-VMs. Wenn Sie stattdessen einen virtuellen Dataproc-Cluster in GKE erstellen, Dataproc in GKE erstellt Knotenpools in einem GKE-Cluster. Dataproc in GKE Jobs werden als Pods auf diesen Knotenpools ausgeführt. Die Knotenpools und Die Planung von Pods in den Knotenpools wird von GKE verwaltet.