Cloud Data Fusion mendukung sumber Pub/Sub dalam pipeline data streaming.
Sebelum memulai
Peran dan izin
Untuk mendapatkan izin yang diperlukan untuk membaca dari sumber streaming Pub/Sub,
minta administrator untuk memberi Anda
peran IAM Pub/Sub Editor (roles/pubsub.editor
) di akun layanan yang digunakan untuk mengakses langganan Pub/Sub.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Peran bawaan ini berisi izin yang diperlukan untuk membaca dari sumber streaming Pub/Sub. Untuk melihat izin yang benar-benar diperlukan, luaskan bagian Izin yang diperlukan:
Izin yang diperlukan
Izin berikut diperlukan untuk membaca dari sumber streaming Pub/Sub:
-
pubsub.snapshots.create
-
pubsub.snapshots.delete
-
pubsub.snapshots.seek
-
pubsub.subscriptions.consume
-
pubsub.topics.attachSubscription
Anda mungkin juga bisa mendapatkan izin ini dengan peran khusus atau peran bawaan lainnya.
Anda memberikan peran pada akun layanan yang Anda tentukan di properti plugin untuk mengakses Pub/Sub. Jika tidak ada yang ditentukan, berikan peran di akun layanan Dataproc.
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses.
Menambahkan sumber Pub/Sub ke pipeline data streaming
Buka instance Anda:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Untuk membuka instance di Cloud Data Fusion Studio, klik Instance, lalu klik View instance.
Di antarmuka web Cloud Data Fusion, klik Studio.
Pilih Data Pipeline - Realtime.
Di menu Source, pilih Pub/Sub. Node sumber streaming Pub/Sub muncul di pipeline.
Di node Pub/Sub, klik Properties untuk mengonfigurasi sumber. Untuk mengetahui informasi selengkapnya, lihat Sumber Streaming Pub/Sub.
Dukungan untuk satu sumber Pub/Sub tanpa plugin Windower
Cloud Data Fusion versi 6.9.1 mendukung pipeline real time dengan satu sumber streaming Pub/Sub dan tanpa plugin Windower.
- Sumber streaming Pub/Sub memiliki dukungan bawaan dan data diproses setidaknya satu kali. Mengaktifkan checkpointing Spark tidak diperlukan.
- Sumber streaming Pub/Sub membuat snapshot Pub/Sub di awal setiap batch dan menghapusnya di akhir setiap batch.
- Membuat snapshot Pub/Sub memiliki biaya yang terkait dengannya. Untuk mengetahui informasi selengkapnya, lihat Harga Pub/Sub.
- Anda dapat memantau pembuatan snapshot di Cloud Audit Logs.
Mengupgrade pipeline dengan sumber streaming Pub/Sub
Cloud Data Fusion mendukung upgrade aplikasi langsung untuk pipeline streaming dengan sumber streaming Pub/Sub yang dibuat di 6.9.1 atau yang lebih baru.
Cloud Data Fusion tidak mendukung upgrade untuk pipeline data dengan sumber streaming Pub/Sub dalam versi 6.9.0 atau yang lebih lama. Sebagai gantinya, upgrade pipeline tersebut ke 6.9.1:
- Berhenti memublikasikan data ke topik saat upgrade instance direncanakan.
- Tunggu hingga pipeline selesai memproses data yang dipublikasikan.
- Setelah data diproses sepenuhnya, hentikan pipeline.
- Upgrade instance.
- Buat duplikat pipeline yang ada dan update ke plugin terbaru.
- Deploy pipeline.
Jalankan pipeline baru untuk membaca data.
Versi baru otomatis menggunakan snapshot, bukan checkpointing Spark.
Hapus pipeline lama.
Langkah selanjutnya
- Lihat Sumber Streaming Pub/Sub CDAP.