서버리스 Dataproc란?

Dataproc 서버리스를 사용하면 자체 클러스터를 프로비저닝하고 관리할 필요 없이 Spark 배치 워크로드를 실행할 수 있습니다. 워크로드 매개변수를 지정한 후 워크로드를 Dataproc 서버리스 서비스에 제출하세요. 이 서비스는 관리형 컴퓨팅 인프라에서 워크로드를 실행하고 필요에 따라 리소스를 자동 확장합니다. 서버리스 Dataproc 요금은 워크로드가 실행될 때만 적용됩니다.

Spark 배치 워크로드의 Dataproc Serverless를 예약하세요. Airflow 배치 연산자를 사용하면 Spark 배치 워크로드를 Airflow 또는 Cloud Composer 워크플로의 일부로서 예약할 수 있습니다. 자세한 내용은 Cloud Composer로 Dataproc 서버리스 워크로드 실행을 참조하세요.

Spark를 위한 서버리스 Dataproc와 Compute Engine 기반 Dataproc 비교

Compute Engine 기반 Dataproc은 인프라를 프로비저닝 및 관리하고 Spark 및 기타 오픈소스 처리 프레임워크에서 워크로드를 실행하려는 사용자에게 적합합니다. 다음 표는 Compute Engine에서 Dataproc실행과 Spark를 위한 서버리스 Dataproc의 주요 차이점을 나열합니다.

기능 Spark를 위한 서버리스 Dataproc Compute Engine 기반 Dataproc
처리 프레임워크 Spark 3.2 Spark 3.1 이하 버전 Hive와 같은 기타 오픈소스 프레임워크
서버리스 아니요
시작 시간 60s 90s
인프라 제어 아니요
리소스 관리 Spark 기반 YARN 기반
GPU 지원 예정
대화형 세션 예정(Google 관리형) 예(고객 관리형)
커스텀 컨테이너 아니요
VM 액세스(예: SSH) 아니요
자바 버전 자바 11 이전 버전 지원
OS Login 지원 * 아니요

참고:

  • OS 로그인 정책은 Dataproc 서버리스에 적용되거나 지원되지 않습니다. 조직에서 OS Login 정책을 시행하면 Dataproc 서버리스 워크로드가 실패합니다.

Spark 워크로드 기능을 위한 서버리스 Dataproc

Spark 서비스를 위한 서버리스 Dataproc에서 다음 Spark 워크로드 유형을 실행할 수 있습니다.

  • Pyspark
  • Spark SQL
  • Spark R
  • Spark 자바/Scala
    • Spark 배치 워크로드를 제출할 때 Spark 속성을 지정할 수 있습니다.