GKE 기반 Dataproc 개요

GKE 기반 Dataproc을 사용하면 GKE 클러스터에서 Dataproc jobs API를 사용하여 빅데이터 애플리케이션을 실행할 수 있습니다. Google Cloud Console, Google Cloud CLI 또는 Dataproc API(HTTP 요청 또는 Cloud 클라이언트 라이브러리)를 사용하여 GKE 기반 Dataproc 가상 클러스터를 만든 후 Spark, PySpark, SparkR, Spark-SQL 작업을 Dataproc 서비스에 제출합니다.

GKE 기반 Dataproc은 Spark 2.4 및 Spark 3.1 버전을 지원합니다.

GKE 기반 Dataproc 작동 방식

GKE 기반 Dataproc은 GKE 클러스터에 Dataproc 가상 클러스터를 배포합니다. Compute Engine 기반 Dataproc 클러스터와 달리 GKE 기반 Dataproc 가상 클러스터에는 별도의 마스터 및 작업자 VM이 포함되지 않습니다. 대신 GKE 기반 Dataproc 가상 클러스터를 만들면 GKE 기반 Dataproc이 GKE 클러스터 내에 노드 풀을 만듭니다. GKE 기반 Dataproc 작업은 이 노드 풀에서 포드로 실행됩니다. 노드 풀 및 노드 풀의 포드 예약은 GKE에서 관리됩니다.