gcloud CLI를 사용하여 Dataproc 클러스터 만들기

이 페이지에서는 Google Cloud CLI gcloud 명령줄 도구를 사용하여 Google Cloud Dataproc 클러스터를 만들고, 클러스터에서 간단한 Apache Spark 작업을 실행하고, 클러스터에 있는 작업자 수를 수정하는 방법을 설명합니다.

동일하거나 유사한 작업을 수행하는 방법은 API 탐색기를 사용한 빠른 시작, Google Cloud 콘솔을 사용하여 Dataproc 클러스터 만들기의 Google Cloud 콘솔, 클라이언트 라이브러리를 사용하여 Dataproc 클러스터 만들기의 클라이언트 라이브러리 사용을 참조하세요.

시작하기 전에

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataproc API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataproc API.

    Enable the API

클러스터 만들기

다음 명령어를 실행하여 example-cluster라는 클러스터를 만듭니다. 리전 선택에 관한 자세한 내용은 사용 가능한 리전 및 영역을 참조하세요. gcloud compute regions list 명령어를 실행하여 사용 가능한 리전 목록을 볼 수도 있습니다. 또한 리전 엔드포인트에 대해 알아보려면 리전 엔드포인트를 참조하세요.

gcloud dataproc clusters create example-cluster --region=region

클러스터 생성은 명령어 결과에서 확인됩니다.

...
Waiting for cluster creation operation...done.
Created [... example-cluster]

작업 제출

대략적인 Pi 값을 계산하는 Spark 작업 샘플을 제출하려면 다음 명령을 실행합니다.

gcloud dataproc jobs submit spark --cluster example-cluster \
    --region=region \
    --class org.apache.spark.examples.SparkPi \
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

이 명령어는 다음 사항을 지정합니다.

  • 지정된 리전의 example-cluster 클러스터에서 spark 작업을 실행하려는 경우
  • 작업에서 pi를 계산하는 애플리케이션의 기본 메서드가 포함된 class
  • 작업의 코드가 포함된 jar 파일의 위치
  • 작업에 전달할 매개변수. 이 경우 태스크의 수(1000)

작업의 실행과 최종 결과는 터미널 창에 표시됩니다.

Waiting for job output...
...
Pi is roughly 3.14118528
...
Job finished successfully.

클러스터 업데이트

클러스터의 작업자 수를 5로 변경하려면 다음 명령을 실행합니다.

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 5

클러스터의 세부정보는 명령의 결과에 표시됩니다.

workerConfig:
...
  instanceNames:
  - example-cluster-w-0
  - example-cluster-w-1
  - example-cluster-w-2
  - example-cluster-w-3
  - example-cluster-w-4
  numInstances: 5
statusHistory:
...
- detail: Add 3 workers.

동일한 명령을 사용하여 작업자 노드 수를 기존 값으로 줄일 수 있습니다.

gcloud dataproc clusters update example-cluster \
    --region=region \
    --num-workers 2

삭제

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

  • clusters delete를 실행하여 예시 클러스터를 삭제합니다.
    gcloud dataproc clusters delete example-cluster \
        --region=region
    
    클러스터를 삭제할 것인지 확인하는 메시지가 표시됩니다. y를 입력하여 삭제를 완료합니다.

다음 단계