이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Apache Spark용 서버리스 개요

Google Cloud Apache Spark용 서버리스를 사용하면 자체 Dataproc 클러스터를 프로비저닝하고 관리할 필요 없이 Spark 워크로드를 실행할 수 있습니다. Apache Spark용 서버리스 워크로드를 실행하는 방법에는 두 가지가 있습니다.

일괄 워크로드
대화형 세션

일괄 워크로드

Google Cloud 콘솔, Google Cloud CLI 또는 Dataproc API를 사용하여 Apache Spark용 서버리스 서비스에 일괄 워크로드를 제출합니다. 이 서비스는 관리형 컴퓨팅 인프라에서 워크로드를 실행하고 필요에 따라 리소스를 자동 확장합니다. Apache Spark용 서버리스 요금은 워크로드가 실행될 때만 적용됩니다.

시작하려면 Apache Spark 일괄 워크로드 실행을 참고하세요.

대화형 세션

Spark용 Apache Spark용 서버리스 대화형 세션 중에 Jupyter 노트북에서 코드를 작성하고 실행합니다. 다음과 같은 방법으로 노트북 세션을 만들 수 있습니다.

BigQuery Studio 노트북에서 PySpark 코드 실행 BigQuery Python 노트북을 사용하여 Spark-Connect 기반 Apache Spark용 서버리스 대화형 세션을 만듭니다. 각 BigQuery 노트북에는 연결된 활성 Apache Spark용 서버리스 세션이 하나만 있을 수 있습니다.
Dataproc JupyterLab 플러그인을 사용하여 자신이 만들고 관리하는 템플릿에서 여러 Jupyter 노트북 세션을 만듭니다. 로컬 머신 또는 Compute Engine VM에 플러그인을 설치하면 다양한 Spark 커널 구성에 해당하는 다양한 카드가 JupyterLab 런처 페이지에 표시됩니다. 카드를 클릭하여 Apache Spark용 서버리스 노트북 세션을 만든 후 노트북에서 코드 작성 및 테스트를 시작합니다.

Dataproc JupyterLab 플러그인을 사용하면 JupyterLab 런처 페이지를 사용하여 다음 작업을 수행할 수도 있습니다.
- Compute Engine 클러스터 기반 Dataproc을 만듭니다.
- Compute Engine 기반 Dataproc 클러스터에 작업을 제출합니다.
- Google Cloud 및 Spark 로그를 확인합니다.

Apache Spark용 서버리스와 Compute Engine 기반 Dataproc 비교

인프라를 프로비저닝 및 관리하고 Spark 및 기타 오픈소스 처리 프레임워크에서 워크로드를 실행하려면 Compute Engine 기반 Dataproc을 사용하세요. 다음 표는 Compute Engine에서 Dataproc 실행과 Serverless for Apache Spark의 주요 차이점을 나열합니다.

역량	Apache Spark용 서버리스	Compute Engine 기반 Dataproc
처리 프레임워크	일괄 워크로드: Spark 3.5 이전 버전 대화형 세션: Spark 3.5 이전 버전	Spark 3.5 이하 버전. Hive, Flink, Trino, Kafka와 같은 기타 오픈소스 프레임워크
서버리스	예	아니요
시작 시간	60s	90s
인프라 제어	아니요	예
리소스 관리	Spark 기반	YARN 기반
GPU 지원	예	예
대화형 세션	예	아니요
커스텀 컨테이너	예	아니요
VM 액세스(예: SSH)	아니요	예
자바 버전	자바 17, 11	이전 버전 지원됨

보안 규정 준수

Apache Spark용 서버리스는 Dataproc이 준수하는 모든 데이터 상주, CMEK, VPC-SC, 기타 보안 요구사항을 준수합니다.

일괄 워크로드 기능

다음과 같은 Apache Spark용 서버리스 일괄 워크로드 유형을 실행할 수 있습니다.

PySpark
Spark SQL
Spark R
Spark(자바 또는 Scala)

Apache Spark용 서버리스 일괄 워크로드를 제출할 때 Spark 속성을 지정할 수 있습니다.