템플릿을 사용한 Spark 작업 제출

이 페이지에서는 Google API 탐색기 템플릿을 사용해 기존 Dataproc 클러스터에서 간단한 Spark 작업을 실행하는 방법을 보여줍니다.

Dataproc 클러스터에 작업을 제출하는 다른 방법은 다음을 참조하세요.

시작하기 전에

Dataproc 작업을 실행하기 전에 작업을 실행할 가상 머신(VM)을 1개 이상 사용하여 클러스터를 만들어야 합니다. API 탐색기, Google Cloud Console, gcloud CLI gcloud 명령줄 도구 또는 빠른 시작: Cloud 클라이언트 라이브러리 사용을 사용하여 클러스터를 만들 수 있습니다.

작업 제출

대략적인 Pi 값을 계산하는 Apache Spark 작업 샘플을 제출하려면 Google API 탐색기 API 사용해 보기 템플릿을 작성하고 실행합니다.

  1. 요청 매개변수:

    1. projectId를 삽입합니다.
    2. 클러스터가 있는 리전을 지정합니다('us-central1' 확인 또는 교체). 클러스터의 리전은 Cloud Console의 Dataproc 클러스터 페이지에 나열됩니다.
  2. 요청 본문:

    1. job.placement.clusterName: 작업을 실행할 클러스터의 이름입니다('example-cluster' 확인 또는 대체).
    2. job.sparkJob.args: '1000', 작업 태스크 수입니다.
    3. job.sparkJob.jarFileUris: 'file:///usr/lib/spark/examples/jars/spark-examples.jar'. Spark Scala 작업 코드가 포함된 jar이 설치된 Dataproc 클러스터의 마스터 노드에 있는 로컬 파일 경로입니다.
    4. job.sparkJob.mainClass: 'org.apache.spark.examples.SparkPi'. 작업의 pi 계산 Scala 애플리케이션의 기본 메서드입니다.
  3. 실행을 클릭합니다. API 템플릿을 처음 실행하면 Google 계정을 선택하여 로그인한 다음 Google API 탐색기가 사용자 계정에 액세스할 수 있도록 승인하라는 메시지가 표시될 수 있습니다. 요청이 성공하면 JSON 응답에 작업 제출 요청이 대기 중인 것으로 표시됩니다.

  4. 작업 출력을 보려면 Cloud Console에서 Dataproc 작업 페이지를 연 다음 맨 위에 있는 최신 작업의 ID를 클릭합니다. 'LINE WRAP'을 ON으로 클릭하여 오른쪽 여백을 초과하는 줄을 보이게 할 수 있습니다.

    ...
    Pi is roughly 3.141804711418047
    ...
    

삭제

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

  1. 다른 빠른 시작을 살펴보거나 다른 작업을 실행하기 위해 클러스터가 필요하지 않은 경우 API 탐색기, Google Cloud Console, gcloud CLI gcloud 명령줄 도구, 또는 Cloud 클라이언트 라이브러리를 사용하여 클러스터를 삭제합니다.

다음 단계