빠른 시작: 콘솔 사용

이 페이지에서는 Google Cloud Console을 사용하여 Dataproc 클러스터를 만들고 클러스터에서 간단한 Apache Spark 작업을 실행한 다음 클러스터의 작업자 수를 수정하는 방법을 보여줍니다.

이 작업을 수행하는 방법은 빠른 시작: API 탐색기 사용빠른 시작: gcloud 명령줄 도구 사용을 참조하세요.

시작하기 전에

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Dataproc API를 사용 설정합니다.

    API 사용 설정

클러스터 만들기

  1. Cloud Console Cloud Dataproc 클러스터 페이지로 이동합니다.
  2. 클러스터 만들기를 클릭합니다.
  3. 이름 필드에 example-cluster를 입력합니다.
  4. 리전영역 드롭다운 메뉴에서 클러스터의 리전과 영역을 선택합니다. 고유 리전(예: us-east1 또는 europe-west1)을 선택하여 지정된 리전 내에서 Dataproc이 사용하는 리소스(VM 인스턴스, Cloud Storage 포함) 및 메타데이터 스토리지 위치를 분리할 수 있습니다. 고유 리전을 선택한 경우 영역에 대해 '선호 항목 없음'을 선택하여 Dataproc이 클러스터에 선택된 리전 내에서 영역을 선택하도록 할 수 있습니다(Dataproc 자동 영역 배치 참조). 또한 사용자가 지정한 Compute Engine 영역에 인스턴스를 배포할 수 있는 특수한 멀티 리전 엔드포인트인 global 리전을 선택할 수도 있습니다. 전역 리전을 선택할 때 영역을 선택해야 합니다. 전역 엔드포인트와 리전 엔드포인트 간 차이에 대해 자세히 알아보려면 리전 엔드포인트를 참조하세요. 리전 및 영역 선택에 대한 자세한 내용은 사용 가능한 리전 및 영역을 참조하세요. 또한 gcloud compute regions list 명령어를 실행하여 사용 가능한 리전 목록을 볼 수도 있습니다.
  5. 제공된 기본값을 다른 모든 옵션에 사용합니다.
  6. 만들기를 클릭하여 클러스터를 만듭니다.

새 클러스터가 클러스터 목록에 표시되어야 합니다. 클러스터 상태는 클러스터를 사용할 준비가 될 때까지 '프로비저닝'으로 표시되고 이후 '실행 중'으로 변경됩니다.

작업 제출

샘플 Spark 작업을 실행하는 방법은 다음과 같습니다.

  1. 왼쪽 탐색 메뉴에서 작업을 선택하여 Dataproc의 작업 보기로 전환합니다.
  2. 작업 제출을 클릭합니다.
  3. 작업 ID를 수락하거나 프로젝트 내에서 고유한 ID를 제공할 수 있습니다.
  4. 새 example-cluster의 리전을 선택합니다.
  5. 클러스터 드롭다운 메뉴에서 example-cluster를 선택합니다.
  6. 작업 유형 드롭다운 메뉴에서 Spark를 선택합니다.
  7. 기본 클래스 또는 jar 필드에 org.apache.spark.examples.SparkPi를 입력합니다.
  8. Jar 파일 필드에 file:///usr/lib/spark/examples/jars/spark-examples.jar을 입력합니다.
  9. 1000인수 필드에 입력하여 작업 수를 설정합니다.
  10. 제출을 클릭합니다.

클러스터, 유형 및 현재 상태와 함께 프로젝트의 작업을 보여주는 작업 목록에 작업이 표시되어야 합니다. 작업 상태는 '실행 중'으로 표시된 후 완료되면 '성공'으로 표시됩니다. 완료된 작업의 출력을 보는 방법은 다음과 같습니다.

  1. 작업 목록에서 작업 ID를 클릭합니다.
  2. 줄바꿈을 선택하여 스크롤하는 것을 방지합니다.

대략적인 Pi 값이 성공적으로 계산된 것을 확인할 수 있습니다.

클러스터 업데이트

클러스터에서 작업자 인스턴스의 수를 변경하는 방법은 다음과 같습니다.

  1. 왼쪽 탐색창에서 클러스터를 선택하여 Cloud Dataproc 클러스터 보기로 돌아갑니다.
  2. 클러스터 목록에서 example-cluster를 선택합니다. 기본적으로 페이지에는 클러스터의 CPU 사용에 대한 개요가 표시됩니다.
  3. 구성을 클릭하여 클러스터의 현재 설정을 표시합니다.
  4. 편집을 클릭합니다. 이제 작업자 노드의 수를 수정할 수 있습니다.
  5. 워커 노드 필드에 5를 입력합니다.
  6. 저장을 클릭합니다.

클러스터가 업데이트되었습니다. 동일한 절차에 따라 작업자 노드 수를 기존 값으로 줄일 수 있습니다.

정리

이 빠른 시작에서 사용한 리소스의 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 따르세요.

  1. example-cluster 클러스터 페이지에서 삭제를 클릭하여 클러스터를 삭제합니다. 클러스터를 삭제할 것인지 확인하는 메시지가 표시됩니다. 확인을 클릭합니다.
  2. 또한 다음 명령을 실행하여 클러스터에 의해 만들어진 Cloud Storage 버킷을 삭제해야 합니다.
    gsutil rm gs://bucket/subdir/**
    

다음 단계