gcloud CLI를 사용하여 Dataproc 클러스터 만들기
이 페이지에서는 Google Cloud CLI gcloud 명령줄 도구를 사용하여 Google Cloud Dataproc 클러스터를 만들고, 클러스터에서 간단한 Apache Spark 작업을 실행하고, 클러스터에 있는 작업자 수를 수정하는 방법을 설명합니다.
동일하거나 유사한 작업을 수행하는 방법은 API 탐색기를 사용한 빠른 시작, Google Cloud 콘솔을 사용하여 Dataproc 클러스터 만들기의 Google Cloud 콘솔, 클라이언트 라이브러리를 사용하여 Dataproc 클러스터 만들기의 클라이언트 라이브러리 사용을 참조하세요.
시작하기 전에
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Dataproc API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Enable the Dataproc API.
클러스터 만들기
다음 명령어를 실행하여 example-cluster
라는 클러스터를 만듭니다.
리전 선택에 관한 자세한 내용은 사용 가능한 리전 및 영역을 참조하세요. gcloud compute regions list
명령어를 실행하여 사용 가능한 리전 목록을 볼 수도 있습니다.
또한 리전 엔드포인트에 대해 알아보려면 리전 엔드포인트를 참조하세요.
gcloud dataproc clusters create example-cluster --region=region
클러스터 생성은 명령어 결과에서 확인됩니다.
... Waiting for cluster creation operation...done. Created [... example-cluster]
작업 제출
대략적인 Pi 값을 계산하는 Spark 작업 샘플을 제출하려면 다음 명령을 실행합니다.
gcloud dataproc jobs submit spark --cluster example-cluster \ --region=region \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
이 명령어는 다음 사항을 지정합니다.
- 지정된 리전의
example-cluster
클러스터에서spark
작업을 실행하려는 경우 - 작업에서 pi를 계산하는 애플리케이션의 기본 메서드가 포함된
class
- 작업의 코드가 포함된 jar 파일의 위치
- 작업에 전달할 매개변수. 이 경우 태스크의 수(
1000
)
작업의 실행과 최종 결과는 터미널 창에 표시됩니다.
Waiting for job output... ... Pi is roughly 3.14118528 ... Job finished successfully.
클러스터 업데이트
클러스터의 작업자 수를 5로 변경하려면 다음 명령을 실행합니다.
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 5
클러스터의 세부정보는 명령의 결과에 표시됩니다.
workerConfig: ... instanceNames: - example-cluster-w-0 - example-cluster-w-1 - example-cluster-w-2 - example-cluster-w-3 - example-cluster-w-4 numInstances: 5 statusHistory: ... - detail: Add 3 workers.
동일한 명령을 사용하여 작업자 노드 수를 기존 값으로 줄일 수 있습니다.
gcloud dataproc clusters update example-cluster \ --region=region \ --num-workers 2
삭제
이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.
clusters delete
를 실행하여 예시 클러스터를 삭제합니다. 클러스터를 삭제할 것인지 확인하는 메시지가 표시됩니다.gcloud dataproc clusters delete example-cluster \ --region=region
y
를 입력하여 삭제를 완료합니다.
다음 단계
- Spark Scala 작업 작성 및 실행 방법 알아보기