Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:
- Dataproc
- Compute Engine
- Cloud Composer
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Sebelum memulai
Menyiapkan project
- Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataproc, Compute Engine, and Cloud Composer .
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
-
Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.
-
Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.
-
Aktifkan API Dataproc, Compute Engine, and Cloud Composer .
- Menginstal Google Cloud CLI.
-
Untuk initialize gcloud CLI, jalankan perintah berikut:
gcloud init
Membuat template alur kerja Dataproc
Salin dan jalankan perintah yang tercantum di bawah di jendela terminal lokal atau di Cloud Shell untuk membuat dan menentukan template alur kerja.
- Buat template alur kerja
sparkpi
.gcloud dataproc workflow-templates create sparkpi \ --region=us-central1
- Tambahkan tugas spark ke template alur kerja
sparkpi
. Flagstep-id
"compute" mengidentifikasi tugas SparkPi.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000
- Gunakan cluster node tunggal
terkelola untuk menjalankan alur kerja. Dataproc akan membuat cluster, menjalankan alur kerja di dalamnya, lalu menghapus cluster saat alur kerja selesai.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1
- Konfirmasi pembuatan template alur kerja.
Konsol
Klik nama
sparkpi
di halaman Workflows Dataproc di konsol Google Cloud untuk membuka halaman Workflow template details. Klik nama template alur kerja Anda untuk mengonfirmasi atribut templatesparkpi
.Perintah gcloud
Jalankan perintah berikut:
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
Membuat dan Mengupload DAG ke Cloud Storage
- Buat atau gunakan lingkungan Cloud Composer yang sudah ada.
- Menetapkan variabel lingkungan.
UI Airflow
- Di toolbar, klik Admin > Variabel.
- Klik Create.
- Masukkan informasi berikut:
- Tombol:
project_id
- Val: PROJECT_ID — Project ID Google Cloud Anda
- Tombol:
- Klik Save.
Perintah gcloud
Masukkan perintah berikut:
ENVIRONMENT
adalah nama lingkungan Cloud ComposerLOCATION
adalah region tempat lingkungan Cloud Composer beradaPROJECT_ID
adalah project ID untuk project yang berisi lingkungan Cloud Composer
gcloud composer environments run ENVIRONMENT --location LOCATION variables set -- project_id PROJECT_ID
- Salin kode DAG berikut secara lokal ke dalam file berjudul "composer-dataproc-dag.py",
yang menggunakan
DataprocInstantiateWorkflowTemplateOperator.
Aliran udara 2
Aliran udara 1
- Upload DAG ke folder lingkungan Anda di Cloud Storage. Setelah upload berhasil diselesaikan, klik link DAGs Folder di halaman Lingkungan Cloud Composer.
Melihat status tugas
UI Airflow
- Buka Airflow web interface.
- Di halaman DAG, klik nama DAG (misalnya,
dataproc_workflow_dag
). - Di halaman Detail DAG, klik Graph View.
- Periksa status:
- Gagal: Ada kotak merah di sekeliling tugas. Anda juga dapat menahan pointer pada tugas dan mencari State: Failed.
- Berhasil: Tugas memiliki kotak hijau di sekelilingnya. Anda juga dapat menahan pointer ke tugas dan memeriksa State: Success.
Konsol
Klik tab Workflows untuk melihat status alur kerja.
Perintah gcloud
gcloud dataproc operations list \ --region=us-central1 \ --filter="labels.goog-dataproc-workflow-template-id=sparkpi"
Pembersihan
Untuk menghindari timbulnya biaya pada akun Google Cloud Anda, Anda dapat menghapus resource yang digunakan dalam tutorial ini: