GKE 기반 Dataproc을 사용하면 GKE 클러스터에서 Dataproc jobs API를 사용하여 빅데이터 애플리케이션을 실행할 수 있습니다.
Google Cloud 콘솔, Google Cloud CLI 또는 Dataproc API(HTTP 요청 또는 Cloud 클라이언트 라이브러리)를 사용하여 GKE 기반 Dataproc 가상 클러스터를 만든 후 Spark, PySpark, SparkR, Spark-SQL 작업을 Dataproc 서비스에 제출합니다.
GKE 기반 Dataproc은 GKE 클러스터에 Dataproc 가상 클러스터를 배포합니다. Compute Engine 기반 Dataproc 클러스터와 달리 GKE 기반 Dataproc 가상 클러스터에는 별도의 마스터 및 작업자 VM이 포함되지 않습니다. 대신 GKE 기반 Dataproc 가상 클러스터를 만들면 GKE 기반 Dataproc이 GKE 클러스터 내에 노드 풀을 만듭니다. GKE 기반 Dataproc 작업은 이 노드 풀에서 포드로 실행됩니다. 노드 풀 및 노드 풀의 포드 예약은 GKE에서 관리됩니다.