Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Tutorial ini menunjukkan cara menggunakan Cloud Composer untuk membuat Apache Airflow DAG (Directed Acyclic Graph) yang menjalankan tugas jumlah kata Apache Hadoop di Dataproc .
Tujuan
- Akses lingkungan Cloud Composer Anda dan gunakan UI Airflow.
- Membuat dan melihat variabel lingkungan Airflow.
- Buat dan jalankan DAG yang mencakup tugas berikut:
- Membuat Dataproc .
- Menjalankan Apache Hadoop yang hanya dapat membantu penghitungan kata di cluster.
- Menghasilkan hasil jumlah kata ke Penyimpanan Cloud direktori VM dengan bucket.
- Menghapus cluster.
Biaya
Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:
- Cloud Composer
- Dataproc
- Cloud Storage
Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda,
gunakan kalkulator harga.
Sebelum memulai
Pastikan API berikut diaktifkan di project Anda:
Konsol
Aktifkan API Dataproc, Cloud Storage.
gcloud
Aktifkan API Dataproc, Cloud Storage:
gcloud services enable dataproc.googleapis.com
storage-component.googleapis.com Dalam proyek Anda, membuat bucket Cloud Storage dari semua kelas dan region penyimpanan untuk menyimpan hasil Hadoop jumlah kata.
Perhatikan jalur bucket yang Anda buat, misalnya
gs://example-bucket
. Anda akan menentukan variabel Airflow untuk jalur ini dan menggunakan variabel tersebut dalam contoh DAG nanti dalam tutorial ini.Membuat lingkungan Cloud Composer dengan default parameter. Tunggu hingga pembuatan lingkungan selesai. Setelah selesai, tanda centang hijau ditampilkan di sebelah kiri nama lingkungan.
Perhatikan region tempat Anda membuat lingkungan, misalnya
us-central
. Anda akan menentukan variabel Airflow untuk region ini dan menggunakannya dalam contoh DAG untuk menjalankan cluster Dataproc di region yang sama.
Menyetel variable Airflow
Menetapkan variabel Airflow untuk digunakan nanti dalam contoh DAG. Sebagai contoh, Anda dapat menetapkan variabel Airflow di UI Airflow.
Variabel Airflow | Nilai |
---|---|
gcp_project
|
Project ID project
yang Anda gunakan untuk tutorial ini, seperti example-project . |
gcs_bucket
|
Bucket Cloud Storage URI yang Anda buat untuk tutorial ini,
misalnya gs://example-bucket |
gce_region
|
Wilayah tempat Anda membuat lingkungan, seperti us-central1 .
Ini adalah region tempat cluster Dataproc Anda
akan dibuat. |
Lihat contoh alur kerja
DAG Airflow adalah kumpulan tugas terorganisir yang ingin Anda jadwalkan
lalu jalankan. DAG ditentukan dalam file Python standar. Kode yang ditunjukkan di
hadoop_tutorial.py
adalah kode alur kerja.
Operator
Untuk mengorkestrasi tiga tugas dalam contoh alur kerja, DAG mengimpor tiga operator Airflow berikut:
DataprocClusterCreateOperator
: Membuat cluster Dataproc.DataProcHadoopOperator
: Mengirim tugas jumlah kata Hadoop dan menulis hasilnya ke bucket Cloud Storage.DataprocClusterDeleteOperator
: Menghapus cluster untuk menghindari timbulnya cluster biaya Compute Engine yang sedang berjalan.
Dependensi
Anda mengatur tugas yang ingin Anda jalankan dengan cara yang mencerminkan hubungan dan dependensi. Tugas dalam DAG ini berjalan secara berurutan.
Penjadwalan
Nama DAG adalah composer_hadoop_tutorial
, dan DAG masing-masing berjalan satu kali
mereka. Karena start_date
yang diteruskan ke default_dag_args
adalah
disetel ke yesterday
, Cloud Composer menjadwalkan alur kerja
agar segera dimulai setelah DAG diupload ke bucket lingkungan.
Mengupload DAG ke bucket lingkungan
Cloud Composer menyimpan DAG di folder /dags
di
bucket lingkungan.
Untuk mengupload DAG:
Di komputer lokal Anda, simpan
hadoop_tutorial.py
.Di Konsol Google Cloud, buka halaman Environments.
Dalam daftar lingkungan, di kolom DAGs folder untuk lingkungan, klik link DAGs.
Klik Upload file.
Pilih
hadoop_tutorial.py
di komputer lokal Anda, lalu klik Open.
Cloud Composer menambahkan DAG ke Airflow dan menjadwalkan DAG secara otomatis. Perubahan DAG akan terjadi dalam waktu 3-5 menit.
Mempelajari operasi DAG
Melihat status tugas
Saat mengupload file DAG ke folder dags/
di Cloud Storage,
Cloud Composer akan mengurai file. Ketika berhasil diselesaikan, nama
alur kerja muncul di listingan DAG, dan alur kerja tersebut diantrekan untuk dijalankan
segera.
Untuk melihat status tugas, buka antarmuka web Airflow, lalu klik DAG di toolbar.
Untuk membuka halaman detail DAG, klik
composer_hadoop_tutorial
. Ini berisi representasi grafis dari tugas alur kerja dan dependensi.Untuk melihat status setiap tugas, klik Graph View, lalu arahkan mouse ke grafik untuk tiap tugas.
Buat antrean alur kerja lagi
Untuk menjalankan kembali alur kerja dari Graph View:
- Di Tampilan Grafik UI Airflow, klik grafis
create_dataproc_cluster
. - Untuk mereset ketiga tugas tersebut, klik Hapus, lalu klik Oke untuk mengonfirmasi.
- Klik
create_dataproc_cluster
lagi di Graph View. - Untuk mengantrekan alur kerja lagi, klik Run.
Lihat hasil tugas
Anda juga dapat memeriksa status dan hasil composer_hadoop_tutorial
alur kerja Anda dengan membuka halaman konsol Google Cloud berikut:
Cluster Dataproc: untuk memantau pembuatan cluster dan penghapusan. Perlu diperhatikan bahwa cluster yang dibuat oleh alur kerja bersifat sementara: cluster tersebut hanya ada selama durasi alur kerja dan dihapus sebagai bagian dari dari tugas alur kerja terakhir.
Tugas Dataproc: untuk melihat atau memantau Apache Hadoop jumlah kata. Klik ID Pekerjaan untuk melihat output log tugas.
Browser Cloud Storage: untuk melihat hasil jumlah kata di folder
wordcount
di bucket Cloud Storage yang Anda buat untuk tutorial ini.
Pembersihan
Hapus resource yang digunakan dalam tutorial ini:
Menghapus lingkungan Cloud Composer, termasuk menghapus bucket lingkungan secara manual.
Hapus bucket Cloud Storage yang menyimpan hasil tugas jumlah kata Hadoop.