Mit Dataproc on GKE können Sie Big-Data-Anwendungen mit der Dataproc jobs
API auf GKE-Clustern ausführen.
Google Cloud Console, Google Cloud CLI oder Dataproc API verwenden
(HTTP-Anfrage oder Cloud-Clientbibliotheken) an
Erstellen Sie einen virtuellen Dataproc on GKE-Cluster,
und senden Sie dann einen Spark-, PySpark-, SparkR- oder Spark-SQL-Job an die Dataproc-
Service.
Dataproc on GKE unterstützt Spark 3.5-Versionen.
Funktionsweise von Dataproc in GKE
Dataproc on GKE stellt virtuelle Dataproc-Cluster auf GKE-Cluster. „Mag ich“-Bewertung entfernen Dataproc in Compute Engine-Clustern Virtuelle Dataproc on GKE-Cluster enthalten keine separaten Master- und Worker-VMs. Wenn Sie stattdessen einen virtuellen Dataproc-Cluster in GKE erstellen, Dataproc in GKE erstellt Knotenpools in einem GKE-Cluster. Dataproc in GKE Jobs werden als Pods auf diesen Knotenpools ausgeführt. Die Knotenpools und Die Planung von Pods in den Knotenpools wird von GKE verwaltet.