Ringkasan Cloud Composer

Cloud Composer 1 | Cloud Composer 2

Cloud Composer adalah layanan orkestrasi alur kerja yang terkelola sepenuhnya, yang memungkinkan Anda membuat, menjadwalkan, memantau, dan mengelola pipeline alur kerja yang tersebar di cloud dan pusat data lokal.

Cloud Composer dibangun dari project open source Apache Airflow yang populer dan beroperasi menggunakan bahasa pemrograman Python.

Dengan menggunakan Cloud Composer, bukan instance lokal Apache Airflow, Anda dapat memperoleh manfaat terbaik dari Airflow tanpa overhead penginstalan atau pengelolaan. Cloud Composer membantu Anda membuat lingkungan Airflow yang terkelola dengan cepat dan menggunakan alat berbasis Airflow, seperti antarmuka web Airflow yang canggih dan alat command line, sehingga Anda dapat berfokus pada alur kerja, bukan infrastruktur Anda.

Apache Airflow dan Cloud Composer

Alur kerja, DAG, dan tugas

Dalam analisis data, alur kerja mewakili serangkaian tugas untuk menyerap, mengubah, menganalisis, atau memanfaatkan data. Di Airflow, alur kerja dibuat menggunakan DAG, atau "Directed Acyclic Graphs".

Hubungan antara DAG dan tugas
Gambar 1. Hubungan antara DAG dan tugas

DAG adalah kumpulan tugas yang ingin Anda jadwalkan dan jalankan, yang tertata dengan cara yang mencerminkan hubungan dan dependensinya. DAG dibuat dalam skrip Python, yang menentukan struktur DAG (tugas dan dependensinya) menggunakan kode.

Setiap tugas dalam DAG dapat mewakili hampir semua hal—misalnya, satu tugas dapat menjalankan salah satu fungsi berikut:

  • Menyiapkan data untuk penyerapan
  • Memantau API
  • Mengirim email
  • Menjalankan pipeline

DAG tidak boleh mengkhawatirkan fungsi setiap tugas konstituen—tujuannya adalah memastikan bahwa setiap tugas dijalankan pada waktu yang tepat, dalam urutan yang tepat, atau dengan penanganan masalah yang tepat.

Alur kerja, DAG, dan tugas Airflow

Untuk informasi selengkapnya tentang DAG dan tugas, lihat dokumentasi Apache Airflow.

Lingkungan Cloud Composer

Untuk menjalankan alur kerja, Anda harus membuat lingkungan terlebih dahulu. Airflow bergantung pada banyak layanan mikro untuk dijalankan, sehingga Cloud Composer menyediakan komponen Google Cloud untuk menjalankan alur kerja Anda. Komponen ini secara keseluruhan dikenal sebagai lingkungan Cloud Composer.

Lingkungan adalah deployment Airflow mandiri yang didasarkan pada Google Kubernetes Engine. Alat ini berfungsi dengan layanan Google Cloud lainnya menggunakan konektor bawaan Airflow. Anda dapat membuat satu atau beberapa lingkungan dalam satu project Google Cloud. Anda dapat membuat lingkungan Cloud Composer di region yang didukung.

Untuk melihat secara mendalam komponen lingkungan, lihat arsitektur lingkungan Cloud Composer.

Fitur Cloud Composer

Saat menggunakan Cloud Composer, Anda dapat mengelola dan menggunakan fitur seperti:

  • Lingkungan Airflow
  • Pengelolaan aliran udara
  • Konfigurasi Airflow
  • DAG Airflow (alur kerja)
  • Plugin Apache Kustom

Untuk mempelajari cara kerja Cloud Composer dengan fitur Airflow seperti DAG Airflow, parameter konfigurasi Airflow, plugin kustom, dan dependensi Python, lihat fitur Cloud Composer.

Pertanyaan Umum

Apa versi Apache Airflow yang digunakan Cloud Composer?

Cloud Composer mendukung Airflow 1 dan Airflow 2.

Lingkungan Cloud Composer didasarkan pada gambar Cloud Composer. Saat membuat lingkungan, Anda dapat memilih gambar dengan versi Airflow tertentu.

Anda memiliki kontrol atas versi Apache Airflow lingkungan Anda. Anda dapat memutuskan untuk mengupgrade lingkungan Anda ke versi image Cloud Composer yang lebih baru. Setiap rilis Cloud Composer mendukung beberapa versi Apache Airflow.

Dapatkah saya menggunakan UI dan CLI Airflow native?

Anda dapat mengakses antarmuka web Apache Airflow di lingkungan Anda. Setiap lingkungan Anda memiliki UI Airflow sendiri. Untuk mengetahui informasi selengkapnya tentang mengakses UI Airflow, lihat antarmuka web Airflow.

Untuk menjalankan perintah CLI Airflow di lingkungan Anda, gunakan perintah gcloud. Untuk mengetahui informasi selengkapnya tentang cara menjalankan perintah Airflow CLI di lingkungan Cloud Composer, lihat Antarmuka command line Airflow.

Dapatkah saya menggunakan database saya sendiri sebagai Airflow Metadata DB?

Cloud Composer menggunakan layanan database terkelola untuk Airflow Metadata DB. Anda tidak dapat menggunakan database yang disediakan pengguna sebagai Airflow Metadata DB.

Dapatkah saya menggunakan cluster saya sendiri sebagai cluster Cloud Composer?

Cloud Composer menggunakan layanan Google Kubernetes Engine untuk membuat, mengelola, dan menghapus cluster lingkungan tempat komponen Airflow dijalankan. Cluster ini dikelola sepenuhnya oleh Cloud Composer.

Anda tidak dapat membangun lingkungan Cloud Composer berdasarkan cluster Google Kubernetes Engine yang dikelola sendiri.

Dapatkah saya menggunakan container registry saya sendiri?

Cloud Composer menggunakan layanan Artifact Registry untuk mengelola repositori image container yang digunakan oleh lingkungan Cloud Composer. Anda tidak dapat menggantinya dengan container registry yang disediakan pengguna.

Apakah lingkungan Cloud Composer bersifat zona atau regional?

Lingkungan Cloud Composer 1 didasarkan pada zona.

Lingkungan Cloud Composer 2 memiliki Airflow Metadata DB zona dan lapisan penjadwalan & eksekusi Airflow regional. Penjadwal, pekerja, dan server web Airflow berjalan di lapisan eksekusi Airflow.

Langkah selanjutnya