Arsitektur dan komponen

Instance Cloud Data Fusion berjalan dalam satu zona Compute Engine di Google Cloud. Instance terdiri dari beberapa teknologi Google Cloud, termasuk Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk, dan Cloud Key Management Service.

Instance Cloud Data Fusion disediakan dalam unit tenancy. Library ini memberikan kemampuan untuk membangun dan mengorkestrasi pipeline data, serta untuk pengelolaan metadata terpusat. Instance Cloud Data Fusion berjalan di cluster GKE di dalam project tenant, dan menggunakan Cloud Storage, Cloud SQL, Persistent Disk, Elasticsearch, serta Cloud KMS untuk menyimpan metadata bisnis, teknis, dan operasional.

Komponen utama arsitektur Cloud Data Fusion dijelaskan di bagian berikut.

Project Penyewa

Kumpulan layanan yang diperlukan untuk membangun dan mengorkestrasi pipeline Cloud Data Fusion, dan menyimpan metadata pipeline disediakan dalam project tenant, di dalam unit tenant. Project tenant terpisah dibuat untuk setiap project pelanggan tempat instance Cloud Data Fusion disediakan. Project tenant mewarisi semua konfigurasi jaringan dan firewall project pelanggan.

Bidang kontrol

Bidang kontrol adalah kumpulan operasi API yang menangani instance Cloud Data Fusion itu sendiri, seperti membuat, menghapus, memulai ulang, dan mengupdatenya.

Bidang data

Bidang data mengacu pada sekumpulan operasi REST API yang menangani fungsi utama Cloud Data Fusion, seperti membuat, menjalankan, dan memantau pipeline serta artefak terkait. Misalnya, Anda membuat atau menghentikan pipeline dengan operasi bidang data. Untuk mengetahui informasi selengkapnya, lihat Referensi CDAP.

Layanan sistem

Kumpulan layanan yang digunakan Cloud Data Fusion untuk mengelola siklus proses pipeline, orkestrasi, dan metadata. Cloud Data Fusion mengatur layanan ini menggunakan GKE.

Antarmuka web

Antarmuka web Cloud Data Fusion adalah antarmuka grafis untuk mengembangkan, mengelola, dan menjalankan pipeline data, serta menelusuri, melihat, dan mengelola metadata integrasi. Antarmuka web juga berjalan di cluster GKE.

Hub

Di antarmuka web Cloud Data Fusion, untuk menjelajahi plugin, pipeline sampel, dan integrasi lainnya, klik Hub. Saat versi plugin baru dirilis, plugin tersebut akan terlihat di Hub dalam instance apa pun yang kompatibel. Hal ini berlaku meskipun instance dibuat sebelum plugin dirilis.

Penyimpanan metadata

Cloud Data Fusion menggunakan Cloud Storage, Cloud SQL, Persistent Disk, dan Elasticsearch untuk menyimpan metadata teknis, bisnis, dan operasional.

Namespace

Anda dapat menggunakan namespace untuk mempartisi instance Cloud Data Fusion guna melakukan isolasi data dan aplikasi di lingkungan desain dan eksekusi Anda. Untuk mengetahui informasi selengkapnya, lihat Namespace.

Domain

Saat menggunakan IP publik, layanan antarmuka web dan backend Cloud Data Fusion akan berjalan di domain datafusion.cdap.app. Keduanya akan diekspos menggunakan HTTPS dan menggunakan sertifikat SSL untuk mengenkripsi koneksi.

Eksekusi pipeline

Cloud Data Fusion menjalankan pipeline menggunakan cluster Dataproc. Cloud Data Fusion secara otomatis menyediakan cluster Dataproc sementara, menjalankan pipeline di dalamnya, lalu menghancurkan cluster setelah pipeline dijalankan selesai. Anda juga dapat memilih untuk menjalankan pipeline terhadap cluster Dataproc yang ada.

Cluster Dataproc dan bucket Cloud Storage berada di region yang sama dengan instance Cloud Data Fusion. Untuk mengetahui informasi selengkapnya, lihat Lokasi Data dalam persyaratan layanan umum dan FAQ Cloud Data Fusion.

Google Cloud Operations Suite

Anda dapat memilih untuk mengirim log ke Google Cloud Operations Suite. Untuk instance yang dikonfigurasi agar terintegrasi dengan Google Cloud Operations Suite, dua jenis log akan dikirim ke Google Cloud Operations Suite:

  1. Log audit: Untuk semua operasi pengelolaan instance, Cloud Data Fusion memunculkan log audit ke Google Cloud Operations Suite.

  2. Log pipeline: Anda dapat menemukan log dari berikut ini:

    • Pipeline Cloud Data Fusion di log cluster Dataproc di Google Cloud Operations Suite
    • Halaman Pipeline Studio Cloud Data Fusion tempat Anda menjalankan pipeline

Pelajari lebih lanjut cara bekerja dengan log di Cloud Data Fusion.

Pratinjau

Saat Anda membuat pipeline data di halaman Studio Cloud Data Fusion, untuk melihat sebagian data dari sumber pipeline, klik Pratinjau.

Pipeline dalam pratinjau berjalan di project tenant, dan saat Anda men-deploy pipeline, pipeline ini berjalan di project pelanggan pada profil komputasi yang relevan. Setelah men-deploy pipeline, Anda harus menduplikasi pipeline untuk menggunakan fitur Pratinjau.

Langkah selanjutnya