이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
- Dataproc
- Compute Engine
- Cloud Composer
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
시작하기 전에
프로젝트 설정
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataproc, Compute Engine, and Cloud Composer APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Dataproc 워크플로 템플릿 만들기
로컬 터미널 창 또는 Cloud Shell에서 아래 나열된 명령어를 복사하고 실행하여 워크플로 템플릿을 만들고 정의합니다.
sparkpi
워크플로 템플릿 만들기gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
sparkpi
워크플로 템플릿에 spark 작업을 추가합니다. 'compute'step-id
플래그는 SparkPi 작업을 식별합니다.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- 관리형, 단일 노드 클러스터를 사용하여 워크플로를 실행합니다. Dataproc이 클러스터를 만들고 워크플로를 실행한 다음 워크플로가 완료되면 클러스터를 삭제합니다.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- 워크플로 템플릿 만들기를 확인합니다.
Google Cloud 콘솔의 Dataproc 워크플로 페이지에서
sparkpi
이름을 클릭하여 워크플로 템플릿 세부정보 페이지를 엽니다. 워크플로 템플릿의 이름을 클릭하여sparkpi
템플릿 속성을 확인합니다.다음 명령어를 실행합니다.
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
DAG 생성 및 Cloud Storage로 업로드
- 기존 Cloud Composer 환경을 사용하거나 새로 만듭니다.
- 환경 변수를 설정합니다.
- 툴바에서 관리 > 변수를 클릭합니다.
- 만들기를 클릭합니다.
- 다음 정보를 입력합니다.
- 키:
project_id
- 값: PROJECT_ID — Google Cloud 프로젝트 ID
- 키:
- 저장을 클릭합니다.
다음 명령어를 입력합니다.
ENVIRONMENT
는 Cloud Composer 환경의 이름입니다.LOCATION
은 Cloud Composer 환경이 위치한 리전입니다.PROJECT_ID
는 Cloud Composer 환경이 포함된 프로젝트의 프로젝트 ID입니다.
gcloud composer environments run
ENVIRONMENT --locationLOCATION variables set -- project_idPROJECT_ID - 툴바에서 관리 > 변수를 클릭합니다.
- 다음 DAG 코드를 DataprocInstantiateWorkflowTemplateOperator를 사용하는 'composer-dataproc-dag.py'라는 파일에 로컬로 복사합니다.
- Cloud Storage의 환경 폴더에 DAG를 업로드합니다. 업로드가 완료되면 Cloud Composer 환경 페이지에서 DAG 폴더 링크를 클릭합니다.
작업 상태 보기
- Airflow 웹 인터페이스를 엽니다.
- DAG 페이지에서 DAG 이름(예:
dataproc_workflow_dag
)을 클릭합니다. - DAG 세부정보 페이지에서 그래프 보기를 클릭합니다.
- 상태를 확인합니다.
- 실패: 작업 주변에 빨간색 상자가 있습니다.
작업 위로 마우스 포인터를 올려놓고 상태: 실패를 찾을 수도 있습니다.
- 성공: 작업 주변에 녹색 상자가 있습니다.
작업 위로 마우스 포인터를 올려놓고 상태: 성공을 확인할 수도 있습니다.
- 실패: 작업 주변에 빨간색 상자가 있습니다.
작업 위로 마우스 포인터를 올려놓고 상태: 실패를 찾을 수도 있습니다.
워크플로 탭을 클릭하여 워크플로 상태를 확인합니다.

gcloud dataproc operations list \ --region=us-central1 \ --filter="labels.goog-dataproc-workflow-template-id=sparkpi"
삭제
계정에 요금이 부과되지 않도록 하려면 Google Cloud 이 튜토리얼에서 사용한 리소스를 삭제하면 됩니다.
다음 단계
- Dataproc 워크플로 템플릿 개요를 참조하세요.
- 워크플로 예약 솔루션을 참조하세요.