Ringkasan Cloud Composer

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

Halaman ini menyediakan pengantar singkat tentang Airflow dan DAG, serta menjelaskan fitur dan kemampuan Cloud Composer.

Untuk mengetahui informasi selengkapnya tentang fitur baru dalam rilis Cloud Composer, lihat Catatan rilis.

Tentang Cloud Composer

Cloud Composer adalah layanan orkestrasi alur kerja yang terkelola sepenuhnya, memungkinkan Anda membuat, menjadwalkan, memantau, dan mengelola pipeline alur kerja yang mencakup cloud dan pusat data lokal.

Cloud Composer dibangun berdasarkan Project open source Apache Airflow dan beroperasi menggunakan bahasa pemrograman Python.

Dengan menggunakan Cloud Composer, bukan instance lokal Apache Airflow, Anda dapat memperoleh manfaat dari Airflow terbaik tanpa perlu menginstal atau overhead pengelolaan. Cloud Composer membantu Anda membuat Airflow terkelola lingkungan dengan cepat dan menggunakan alat berbasis Airflow, seperti alat Antarmuka web Airflow dan alat command line, sehingga Anda dapat fokus pada alur kerja dan bukan infrastruktur Anda.

Perbedaan antara berbagai versi Cloud Composer

Untuk informasi selengkapnya tentang perbedaan antara berbagai versi utama Cloud Composer, lihat Ringkasan pembuatan versi Cloud Composer.

DAG Airflow dan Airflow (alur kerja)

Dalam analisis data, alur kerja mewakili serangkaian tugas untuk menyerap, mengubah, menganalisis, atau menggunakan data. Di Airflow, alur kerja dibuat menggunakan DAG, atau "Directed Acyclic Graphs".

Hubungan antara DAG dan tugas
Gambar 1. Hubungan antara DAG dan tugas

DAG adalah kumpulan tugas yang ingin Anda jadwalkan dan jalankan serta atur dengan cara yang mencerminkan hubungan dan ketergantungan mereka. DAG dibuat di file Python, yang menentukan struktur DAG menggunakan kode. DAG adalah untuk memastikan bahwa setiap tugas dieksekusi pada waktu yang tepat dan dalam urutan yang benar.

Setiap tugas di DAG dapat mewakili hampir semua hal—misalnya, satu tugas dapat menjalankan salah satu fungsi berikut:

  • Menyiapkan data untuk penyerapan
  • Memantau API
  • Mengirim email
  • Menjalankan pipeline

Selain menjalankan DAG sesuai jadwal, Anda dapat memicu DAG secara manual atau sebagai respons terhadap peristiwa, seperti perubahan pada Cloud Storage direktori VM dengan bucket. Untuk mengetahui informasi selengkapnya, lihat Memicu DAG.

Untuk informasi selengkapnya tentang DAG dan tugas, lihat Dokumentasi Apache Airflow.

Lingkungan Cloud Composer

Lingkungan Cloud Composer adalah Airflow mandiri deployment berdasarkan Google Kubernetes Engine. Mereka bekerja dengan Google Cloud lainnya menggunakan konektor yang terintegrasi ke dalam Airflow. Anda dapat membuat satu atau beberapa lingkungan dalam satu solusi Google Cloud project, di region yang didukung.

Cloud Composer menyediakan layanan Google Cloud yang berjalan alur kerja dan semua komponen Airflow. Komponen utama dari lingkungan adalah:

  • Cluster GKE: Komponen Airflow seperti Airflow penjadwal, pemicu, dan worker yang dijalankan sebagai workload GKE pada satu cluster yang dibuat untuk lingkungan Anda, dan bertanggung jawab untuk memproses dan menjalankan DAG.

    Cluster ini juga menghosting komponen Cloud Composer lainnya seperti Agen Composer dan Airflow Monitoring, yang membantu mengelola Cloud Composer penting, mengumpulkan log untuk disimpan di Cloud Logging, dan mengumpulkan metrik yang akan diupload ke Cloud Monitoring.

  • Server web Airflow: Server web menjalankan UI Apache Airflow.

  • Database Airflow: Database ini menyimpan metadata Apache Airflow.

  • Bucket Cloud Storage: Terkait dengan Cloud Composer bucket Cloud Storage dengan lingkungan Anda. Bucket ini, juga disebut bucket lingkungan, menyimpan DAG, log, kustom plugin, dan data untuk lingkungan. Untuk informasi selengkapnya tentang bucket see Data yang disimpan di Cloud Storage.

Untuk pembahasan mendalam tentang komponen lingkungan, lihat Arsitektur lingkungan.

Antarmuka Cloud Composer

Cloud Composer menyediakan antarmuka untuk mengelola lingkungan, Instance Airflow yang berjalan di dalam lingkungan, dan masing-masing DAG.

Misalnya, Anda dapat membuat dan mengonfigurasi lingkungan Cloud Composer di konsol Google Cloud, Google Cloud CLI, Cloud Composer API, atau Terraform.

Sebagai contoh lain, Anda dapat mengelola DAG dari Konsol Google Cloud, UI Airflow native, atau dengan menjalankan Google Cloud CLI dan perintah Airflow CLI.

Fitur Airflow di Cloud Composer

Saat menggunakan Cloud Composer, Anda dapat mengelola dan menggunakan fitur Airflow seperti:

  • DAG Airflow: Anda dapat menambahkan, memperbarui, menghapus, atau memicu Airflow DAG di Konsol Google Cloud atau menggunakan UI Airflow native.

  • Opsi konfigurasi Airflow: Anda dapat mengubah Airflow opsi konfigurasi dari nilai {i> default<i} yang digunakan oleh Cloud Composer ke nilai kustom. Di beberapa Cloud Composer, beberapa opsi konfigurasi diblokir, dan Anda tidak dapat mengubah nilainya.

  • Koneksi Airflow.

  • UI Airflow.

  • Airflow CLI.

  • Plugin kustom: Anda dapat menginstal plugin Airflow kustom, seperti operator, hook, dan hook Apache Airflow internal internal sensor, atau antarmuka, ke lingkungan Cloud Composer Anda.

  • Dependensi Python: Anda dapat menginstal Python dependensi dari Indeks Paket Python di lingkungan Anda atau dari repositori paket pribadi, termasuk ke repositori Artifact Registry. Jika dependensi tidak ada dalam indeks paket, Anda juga bisa menggunakan plugin.

  • Logging dan pemantauan untuk DAG, komponen Airflow, dan Lingkungan Cloud Composer:

Kontrol akses di Cloud Composer

Anda mengelola keamanan di level project Google Cloud dan dapat menetapkan peran IAM yang mengizinkan individu pengguna untuk memodifikasi atau membuat lingkungannya. Jika seseorang tidak memiliki akses ke project Anda atau tidak memiliki Cloud Composer yang sesuai Peran IAM, orang tersebut tidak dapat mengakses lingkungan Anda.

Selain IAM, Anda dapat menggunakan Kontrol akses UI Airflow, yang didasarkan pada konfigurasi Model Kontrol Akses Airflow.

Untuk mengetahui informasi selengkapnya tentang fitur keamanan di Cloud Composer, lihat Ringkasan keamanan Cloud Composer.

Jaringan lingkungan

Cloud Composer mendukung beberapa konfigurasi jaringan untuk lingkungan fleksibel, dengan berbagai opsi konfigurasi. Misalnya, di IP Pribadi DAG, komponen Airflow, dan DAG sepenuhnya terisolasi dari di Internet.

Untuk mengetahui informasi selengkapnya tentang jaringan di Cloud Composer, lihat halaman untuk fitur jaringan individual:

Fitur lain Cloud Composer

Fitur Cloud Composer lainnya meliputi:

Pertanyaan Umum (FAQ)

Versi Apache Airflow apa yang digunakan Cloud Composer?

Lingkungan Cloud Composer didasarkan pada Image Cloud Composer. Saat Anda membuat Anda dapat memilih gambar dengan versi Airflow tertentu:

  • Cloud Composer 3 mendukung Airflow 2.
  • Cloud Composer 2 mendukung Airflow 2.
  • Cloud Composer 1 mendukung Airflow 1 dan Airflow 2.

Anda memiliki kontrol atas versi Apache Airflow lingkungan Anda. Anda dapat memutuskan untuk mengupgrade lingkungan Anda ke versi yang lebih baru Gambar Cloud Composer. Masing-masing Rilis Cloud Composer mendukung beberapa Apache Versi Airflow.

Dapatkah saya menggunakan UI dan CLI Airflow native?

Anda dapat mengakses antarmuka web Apache Airflow lingkungan Anda. Masing-masing lingkungan Anda memiliki UI Airflow. Untuk informasi selengkapnya tentang cara mengakses UI Airflow, lihat antarmuka web Airflow.

Untuk menjalankan perintah CLI Airflow di lingkungan Anda, gunakan perintah gcloud. Untuk informasi selengkapnya tentang cara menjalankan perintah CLI Airflow di Lingkungan Cloud Composer, lihat Antarmuka command line Airflow.

Dapatkah saya menggunakan database saya sendiri sebagai database Airflow?

Cloud Composer menggunakan layanan database terkelola untuk Airflow di skrip untuk menyiapkan database. Tidak mungkin menggunakan database yang disediakan pengguna sebagai database Airflow.

Dapatkah saya menggunakan cluster saya sendiri sebagai cluster Cloud Composer?

Cloud Composer menggunakan layanan Google Kubernetes Engine untuk membuat, mengelola, dan menghapus cluster lingkungan tempat komponen Airflow dijalankan. Cluster-klaster ini dikelola sepenuhnya oleh Cloud Composer.

Anda tidak dapat membangun lingkungan Cloud Composer berdasarkan cluster Google Kubernetes Engine yang dikelola sendiri.

Dapatkah saya menggunakan container registry saya sendiri?

Cloud Composer menggunakan layanan Artifact Registry untuk mengelola container repositori image yang digunakan oleh lingkungan Cloud Composer. Anda tidak dapat menggantinya dengan container registry yang disediakan pengguna.

Apakah lingkungan Cloud Composer bersifat zona atau regional?

Lingkungan Cloud Composer 3 dan Cloud Composer 2 memiliki Airflow zona database dan lapisan penjadwalan serta eksekusi Airflow regional. Aliran udara penjadwal, pekerja, dan server web berjalan di lapisan eksekusi Airflow.

Lingkungan Cloud Composer 1 bersifat zona.

Langkah selanjutnya