Fitur Cloud Composer

Cloud Composer 1 | Cloud Composer 2

Halaman ini memberikan ringkasan fitur dan kemampuan Cloud Composer.

Untuk mempelajari lebih lanjut perbedaan antara Cloud Composer 1 dan Cloud Composer 2, lihat ringkasan pembuatan versi.

Cloud Composer adalah layanan Apache Airflow terkelola yang membantu Anda membuat, menjadwalkan, memantau, dan mengelola alur kerja.

Lingkungan Cloud Composer

Lingkungan Cloud Composer adalah wrapper di sekitar Apache Airflow. Cloud Composer membuat komponen berikut untuk setiap lingkungan:

  • Cluster GKE: Penjadwal Airflow, pekerja, dan Redis Queue berjalan sebagai beban kerja GKE pada satu cluster, dan bertanggung jawab untuk memproses dan menjalankan DAG. Cluster ini juga menghosting komponen Cloud Composer lainnya seperti Agen Composer dan Airflow Monitoring, yang membantu mengelola lingkungan Cloud Composer, mengumpulkan log untuk disimpan di Cloud Logging, dan mengumpulkan metrik yang akan diupload ke Cloud Monitoring.
  • Server web: Server web menjalankan antarmuka web Apache Airflow. Untuk mengetahui informasi selengkapnya, lihat Antarmuka Web Airflow.
  • Database: Database menyimpan metadata Apache Airflow.
  • Bucket Cloud Storage: Cloud Composer mengaitkan bucket Cloud Storage dengan lingkungan. Bucket terkait menyimpan DAG, log, plugin kustom, dan data untuk lingkungan. Untuk mengetahui informasi lebih lanjut tentang bucket penyimpanan untuk Cloud Composer, lihat Data yang Disimpan di Cloud Storage.

Pengelolaan aliran udara

Untuk mengakses dan mengelola lingkungan Airflow, Anda dapat menggunakan alat berbasis Airflow berikut:

  • Antarmuka web: Anda dapat mengakses antarmuka web Airflow dari Konsol Google Cloud atau melalui URL langsung dengan izin yang sesuai. Untuk mengetahui informasi selengkapnya, lihat Antarmuka Web Airflow.
  • Alat command line: Setelah menginstal Google Cloud CLI, Anda dapat menjalankan perintah gcloud composer environments untuk mengeluarkan perintah command line Airflow ke lingkungan Cloud Composer. Untuk mengetahui informasi selengkapnya, lihat Antarmuka Command Line Airflow.

Selain alat native, REST API dan RPC API Cloud Composer menyediakan akses terprogram ke lingkungan Airflow Anda. Untuk mengetahui informasi selengkapnya, lihat API dan Referensi.

Konfigurasi Airflow

Secara umum, konfigurasi yang disediakan Cloud Composer untuk Apache Airflow sama dengan konfigurasi untuk deployment Airflow yang dihosting secara lokal. Beberapa konfigurasi Airflow telah dikonfigurasi sebelumnya di Cloud Composer, dan Anda tidak dapat mengubah properti konfigurasinya. Konfigurasi lainnya, Anda tentukan saat membuat atau memperbarui lingkungan. Untuk informasi selengkapnya, lihat Konfigurasi Airflow yang Diblokir.

DAG Airflow (alur kerja)

DAG Apache Airflow adalah alur kerja: kumpulan tugas dengan dependensi tugas tambahan. Cloud Composer menggunakan Cloud Storage untuk menyimpan DAG. Untuk menambahkan atau menghapus DAG dari lingkungan Cloud Composer, Anda menambahkan atau menghapus DAG dari bucket lingkungan yang terkait dengan lingkungan tersebut. Setelah Anda memindahkan DAG ke bucket penyimpanan, DAG akan otomatis ditambahkan dan dijadwalkan di lingkungan Anda.

Selain menjadwalkan DAG, Anda dapat memicu DAG secara manual atau sebagai respons terhadap peristiwa, seperti perubahan yang terjadi di bucket Cloud Storage terkait. Untuk mengetahui informasi selengkapnya, baca artikel Memicu DAG.

Plugin

Anda dapat menginstal plugin kustom, seperti operator, hook, sensor, atau antarmuka Apache Airflow kustom, yang ada di lingkungan Cloud Composer. Untuk mengetahui informasi selengkapnya, lihat Menginstal Plugin Kustom.

Dependensi Python

Anda dapat menginstal dependensi Python dari Indeks Paket Python di lingkungan Anda atau dari repositori paket pribadi. Untuk mengetahui informasi selengkapnya, lihat Menginstal Dependensi Python.

Jika dependensi tidak ada dalam indeks paket, Anda juga dapat menggunakan fitur plugin.

Kontrol akses

Anda dapat mengelola keamanan di level project Google Cloud dan dapat menetapkan peran Identity and Access Management (IAM) agar setiap pengguna tidak dapat mengubah atau membuat lingkungan. Jika seseorang tidak memiliki akses ke project Anda atau tidak memiliki peran IAM Cloud Composer yang sesuai, orang tersebut tidak dapat mengakses lingkungan Anda. Untuk mengetahui informasi selengkapnya, lihat Kontrol akses.

Logging dan pemantauan

Anda dapat melihat log Airflow yang terkait dengan satu tugas DAG di antarmuka web Airflow dan folder logs di bucket Cloud Storage lingkungan.

Log streaming tersedia untuk Cloud Composer. Untuk mengetahui informasi selengkapnya, lihat Memantau lingkungan Cloud Composer.

Cloud Composer juga menyediakan log audit, seperti log audit Aktivitas Admin, untuk project Google Cloud Anda. Untuk mengetahui informasi selengkapnya, lihat Melihat Log Audit.

Jaringan dan keamanan

Secara default, Cloud Composer men-deploy cluster Google Kubernetes Engine VPC-native mode Standar.

Untuk fleksibilitas jaringan dan keamanan tambahan, Cloud Composer juga mendukung fitur berikut.

VPC Bersama

VPC Bersama memungkinkan pengelolaan resource jaringan bersama dari project host pusat untuk menerapkan kebijakan jaringan yang konsisten di seluruh project.

Saat Cloud Composer berpartisipasi di VPC bersama, lingkungan Cloud Composer berada dalam project layanan dan dapat memanggil layanan yang dihosting di project Google Cloud lainnya. Resource dalam project layanan Anda berkomunikasi dengan aman di seluruh batas project menggunakan alamat IP internal. Untuk mengetahui persyaratan jaringan dan project host, lihat Mengonfigurasi VPC bersama.

Lingkungan Cloud Composer berbasis VPC

Dengan VPC-native, alamat IP pod dan layanan di cluster GKE dapat dirutekan secara native di dalam jaringan Google Cloud, termasuk melalui Peering Jaringan VPC.

Dalam konfigurasi ini, Cloud Composer men-deploy cluster GKE berbasis VPC menggunakan alamat IP alias di lingkungan Anda. Saat Anda menggunakan cluster VPC native, GKE otomatis memilih rentang sekunder. Untuk persyaratan jaringan tertentu, Anda juga dapat mengonfigurasi rentang sekunder untuk pod GKE dan layanan GKE selama konfigurasi lingkungan Cloud Composer.

Lingkungan Cloud Composer IP Pribadi

Dengan IP pribadi, alur kerja Cloud Composer sepenuhnya terisolasi dari internet publik.

Dalam konfigurasi ini, Cloud Composer men-deploy cluster GKE native VPC menggunakan alamat IP alias dalam project pelanggan. Cluster GKE untuk lingkungan Anda dikonfigurasi sebagai cluster pribadi, dan instance Cloud SQL dikonfigurasi untuk IP pribadi.

Cloud Composer juga membuat koneksi peering antara jaringan VPC project pelanggan dan jaringan VPC project tenant Anda.

Integrasi silsilah data dengan Dataplex

Menjalankan DAG Cloud Composer sering kali dapat menghasilkan pembuatan atau pembaruan sumber data seperti tabel BigQuery di project Anda. Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak bagaimana data bergerak melalui sistem: dari mana data berasal, tempat data diteruskan, dan transformasi yang diterapkan pada data.

Untuk mengetahui informasi selengkapnya, lihat Integrasi silsilah data dan Tentang Lineage Data dalam dokumentasi Dataplex.

Yang baru