Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Halaman ini memberikan pengantar singkat tentang Airflow dan DAG, serta menjelaskan fitur dan kemampuan Cloud Composer.
Untuk informasi selengkapnya tentang fitur baru dalam rilis Cloud Composer, lihat Catatan rilis.
Tentang Cloud Composer
Cloud Composer adalah layanan orkestrasi alur kerja yang terkelola sepenuhnya, yang memungkinkan Anda membuat, menjadwalkan, memantau, dan mengelola pipeline alur kerja yang tersebar di seluruh cloud dan pusat data lokal.
Cloud Composer dibuat berdasarkan project open source Apache Airflow yang populer dan beroperasi menggunakan bahasa pemrograman Python.
Dengan menggunakan Cloud Composer, bukan instance lokal Apache Airflow, Anda dapat memanfaatkan fitur terbaik Airflow tanpa overhead penginstalan atau pengelolaan. Cloud Composer membantu Anda membuat lingkungan Airflow terkelola dengan cepat dan menggunakan alat native Airflow, seperti antarmuka web dan alat command line Airflow yang canggih, sehingga Anda dapat berfokus pada alur kerja, bukan infrastruktur.
Perbedaan antara versi Cloud Composer
Untuk informasi selengkapnya tentang perbedaan antara versi utama Cloud Composer, lihat Ringkasan pembuatan versi Cloud Composer.
Airflow dan DAG Airflow (alur kerja)
Dalam analisis data, alur kerja mewakili serangkaian tugas untuk menyerap, mengubah, menganalisis, atau menggunakan data. Di Airflow, alur kerja dibuat menggunakan DAG, atau "Directed Acyclic Graph".
DAG adalah kumpulan tugas yang ingin Anda jadwalkan dan jalankan, yang diatur dengan cara yang mencerminkan hubungan dan dependensinya. DAG dibuat dalam file Python, yang menentukan struktur DAG menggunakan kode. Tujuan DAG adalah memastikan bahwa setiap tugas dijalankan pada waktu yang tepat dan dalam urutan yang benar.
Setiap tugas dalam DAG dapat mewakili hampir semua hal—misalnya, satu tugas dapat menjalankan salah satu fungsi berikut:
- Menyiapkan data untuk penyerapan
- Memantau API
- Mengirim email
- Menjalankan pipeline
Selain menjalankan DAG sesuai jadwal, Anda dapat memicu DAG secara manual atau sebagai respons terhadap peristiwa, seperti perubahan dalam bucket Cloud Storage. Untuk informasi selengkapnya, lihat Menjadwalkan dan memicu DAG.
Untuk informasi selengkapnya tentang DAG dan tugas, lihat dokumentasi Apache Airflow.
Lingkungan Cloud Composer
Lingkungan Cloud Composer adalah deployment Airflow mandiri berdasarkan Google Kubernetes Engine. Keduanya berfungsi dengan layanan Google Cloud lainnya menggunakan konektor yang terintegrasi dengan Airflow. Anda dapat membuat satu atau beberapa lingkungan dalam satu project Google Cloud, di region yang didukung.
Cloud Composer menyediakan layanan Google Cloud yang menjalankan alur kerja Anda dan semua komponen Airflow. Komponen utama lingkungan adalah:
Cluster GKE: Komponen Airflow seperti penjadwal, pemicu, dan pekerja Airflow berjalan sebagai workload GKE dalam satu cluster yang dibuat untuk lingkungan Anda, dan bertanggung jawab untuk memproses dan menjalankan DAG.
Cluster ini juga menghosting komponen Cloud Composer lainnya seperti Agen Composer dan Airflow Monitoring, yang membantu mengelola lingkungan Cloud Composer, mengumpulkan log untuk disimpan di Cloud Logging, dan mengumpulkan metrik untuk diupload ke Cloud Monitoring.
Server web Airflow: Server web menjalankan UI Apache Airflow.
Database Airflow: Database menyimpan metadata Apache Airflow.
Bucket Cloud Storage: Cloud Composer mengaitkan bucket Cloud Storage dengan lingkungan Anda. Bucket ini, yang juga disebut bucket lingkungan, menyimpan DAG, log, plugin kustom, dan data untuk lingkungan. Untuk mengetahui informasi selengkapnya tentang bucket lingkungan, lihat Data yang disimpan di Cloud Storage.
Untuk melihat komponen lingkungan secara mendalam, lihat Arsitektur lingkungan.
Antarmuka Cloud Composer
Cloud Composer menyediakan antarmuka untuk mengelola lingkungan, instance Airflow yang berjalan dalam lingkungan, dan setiap DAG.
Misalnya, Anda dapat create dan mengonfigurasi lingkungan Cloud Composer di konsol Google Cloud, Google Cloud CLI, Cloud Composer API, atau Terraform.
Sebagai contoh lain, Anda dapat mengelola DAG dari konsol Google Cloud, UI Airflow native, atau dengan menjalankan Google Cloud CLI dan perintah Airflow CLI.
Fitur Airflow di Cloud Composer
Saat menggunakan Cloud Composer, Anda dapat mengelola dan menggunakan fitur Airflow seperti:
DAG Airflow: Anda dapat menambahkan, memperbarui, menghapus, atau memicu DAG Airflow di konsol Google Cloud atau menggunakan UI Airflow native.
Opsi konfigurasi Airflow: Anda dapat mengubah opsi konfigurasi Airflow dari nilai default yang digunakan oleh Cloud Composer menjadi nilai kustom. Di Cloud Composer, beberapa opsi konfigurasi diblokir, dan Anda tidak dapat mengubah nilainya.
Plugin kustom: Anda dapat menginstal plugin Airflow kustom, seperti operator, hook, sensor, atau antarmuka Apache Airflow kustom, ke dalam lingkungan Cloud Composer.
Dependensi Python: Anda dapat menginstal dependensi Python dari Python Package Index di lingkungan Anda atau dari repositori paket pribadi, termasuk repositori Artifact Registry. Jika dependensi tidak ada dalam indeks paket, Anda juga dapat menggunakan plugin.
Logging dan pemantauan untuk DAG, komponen Airflow, dan lingkungan Cloud Composer:
Anda dapat melihat log Airflow yang terkait dengan satu tugas DAG di antarmuka web Airflow dan folder
logs
di bucket lingkungan.Log Cloud Monitoring dan metrik lingkungan untuk lingkungan Cloud Composer.
Kontrol akses di Cloud Composer
Anda mengelola keamanan di tingkat project Google Cloud dan dapat menetapkan peran IAM yang memungkinkan setiap pengguna mengubah atau membuat lingkungan. Jika seseorang tidak memiliki akses ke project Anda atau tidak memiliki peran IAM Cloud Composer yang sesuai, orang tersebut tidak dapat mengakses lingkungan Anda.
Selain IAM, Anda dapat menggunakan kontrol akses UI Airflow, yang didasarkan pada model Kontrol Akses Apache Airflow.
Untuk mengetahui informasi selengkapnya tentang fitur keamanan di Cloud Composer, lihat Ringkasan keamanan Cloud Composer.
Jaringan lingkungan
Cloud Composer mendukung beberapa konfigurasi jaringan untuk lingkungan, dengan banyak opsi konfigurasi. Misalnya, di lingkungan IP Pribadi, DAG dan komponen Airflow sepenuhnya diisolasi dari internet publik.
Untuk informasi selengkapnya tentang jaringan di Cloud Composer, lihat halaman untuk setiap fitur jaringan:
- Lingkungan IP Publik dan IP Pribadi
- Menghubungkan lingkungan ke jaringan VPC Anda
- Lingkungan VPC Bersama
- Mengonfigurasi Kontrol Layanan VPC
Fitur lain Cloud Composer
Fitur Cloud Composer lainnya meliputi:
- Lingkungan penskalaan otomatis
- Pengembangan dengan lingkungan Airflow lokal
- Lingkungan yang sangat tangguh
- Snapshot lingkungan
- Enkripsi dengan kunci enkripsi yang dikelola pelanggan (CMEK)
- Integrasi silsilah data dengan Dataplex
Pertanyaan Umum (FAQ)
Versi Apache Airflow apa yang digunakan Cloud Composer?
Lingkungan Cloud Composer didasarkan pada image Cloud Composer. Saat membuat lingkungan, Anda dapat memilih image dengan versi Airflow tertentu:
- Cloud Composer 3 mendukung Airflow 2.
- Cloud Composer 2 mendukung Airflow 2.
- Cloud Composer 1 mendukung Airflow 1 dan Airflow 2.
Anda memiliki kontrol atas versi Apache Airflow lingkungan Anda. Anda dapat memutuskan untuk mengupgrade lingkungan ke versi image Cloud Composer yang lebih baru. Setiap rilis Cloud Composer mendukung beberapa versi Apache Airflow.
Dapatkah saya menggunakan UI dan CLI Airflow native?
Anda dapat mengakses antarmuka web Apache Airflow di lingkungan Anda. Setiap lingkungan Anda memiliki UI Airflow-nya sendiri. Untuk mengetahui informasi selengkapnya tentang cara mengakses UI Airflow, lihat Antarmuka web Airflow.
Untuk menjalankan perintah CLI Airflow di lingkungan Anda, gunakan perintah gcloud
.
Untuk mengetahui informasi selengkapnya tentang cara menjalankan perintah Airflow CLI di lingkungan Cloud Composer, lihat Antarmuka command line Airflow.
Dapatkah saya menggunakan database saya sendiri sebagai database Airflow?
Cloud Composer menggunakan layanan database terkelola untuk database Airflow. Anda tidak dapat menggunakan database yang disediakan pengguna sebagai database Airflow.
Dapatkah saya menggunakan cluster saya sendiri sebagai cluster Cloud Composer?
Cloud Composer menggunakan layanan Google Kubernetes Engine untuk membuat, mengelola, dan menghapus cluster lingkungan tempat komponen Airflow berjalan. Cluster ini dikelola sepenuhnya oleh Cloud Composer.
Anda tidak dapat mem-build lingkungan Cloud Composer berdasarkan cluster Google Kubernetes Engine yang dikelola sendiri.
Dapatkah saya menggunakan registry penampung saya sendiri?
Cloud Composer menggunakan layanan Artifact Registry untuk mengelola repositori image container yang digunakan oleh lingkungan Cloud Composer. Registry ini tidak dapat diganti dengan registry penampung yang disediakan pengguna.
Apakah lingkungan Cloud Composer bersifat zonal atau regional?
Lingkungan Cloud Composer 3 dan Cloud Composer 2 memiliki database Airflow zonal dan lapisan eksekusi serta penjadwalan Airflow regional. Penjadwal, pekerja, dan server web Airflow berjalan di lapisan eksekusi Airflow.
Lingkungan Cloud Composer 1 bersifat zonal.