gcloud CLI를 사용하여 Dataproc 클러스터 만들기

이 페이지에서는 Google Cloud CLI gcloud 명령줄 도구를 사용하여 Google Cloud Dataproc 클러스터를 만들고, 클러스터에서 간단한 Apache Spark 작업을 실행하고, 클러스터에 있는 작업자 수를 수정하는 방법을 설명합니다.

시작하기 전에

클러스터 만들기

다음 명령어를 실행하여 example-cluster라는 클러스터를 만듭니다. 리전 선택에 관한 자세한 내용은 사용 가능한 리전 및 영역을 참조하세요. gcloud compute regions list 명령어를 실행하여 사용 가능한 리전 목록을 볼 수도 있습니다. 또한 리전 엔드포인트에 대해 알아보려면 리전 엔드포인트를 참조하세요.

gcloud dataproc clusters create example-cluster --region=region

클러스터 생성은 명령어 결과에서 확인됩니다.

Waiting for cluster creation operation...done.
Created [... example-cluster]

작업 제출

대략적인 Pi 값을 계산하는 Spark 작업 샘플을 제출하려면 다음 명령을 실행합니다.

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

이 명령어는 다음 사항을 지정합니다.

  • 지정된 리전의 example-cluster 클러스터에서 spark 작업을 실행하려는 경우
  • 작업에서 pi를 계산하는 애플리케이션의 기본 메서드가 포함된 class
  • 작업의 코드가 포함된 jar 파일의 위치
  • 작업에 전달할 매개변수. 이 경우 태스크의 수(1000)

작업의 실행과 최종 결과는 터미널 창에 표시됩니다.

Waiting for job output...
Pi is roughly 3.14118528
Job finished successfully.

클러스터 업데이트

클러스터의 작업자 수를 5로 변경하려면 다음 명령을 실행합니다.

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

클러스터의 세부정보는 명령의 결과에 표시됩니다.

  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
- detail: Add 3 workers.

동일한 명령을 사용하여 작업자 노드 수를 기존 값으로 줄일 수 있습니다.

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2


이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

  • clusters delete를 실행하여 예시 클러스터를 삭제합니다.
    gcloud dataproc clusters delete example-cluster \
    클러스터를 삭제할 것인지 확인하는 메시지가 표시됩니다. y를 입력하여 삭제를 완료합니다.

