Halaman ini diterjemahkan oleh Cloud Translation API.

Ringkasan Cloud Data Fusion

Cloud Data Fusion adalah layanan integrasi data perusahaan berbasis cloud dan terkelola sepenuhnya untuk pembuatan dan pengelolaan pipeline data secara cepat. Antarmuka web Cloud Data Fusion memungkinkan Anda membuat solusi integrasi data yang skalabel. Dengan alat ini, Anda dapat terhubung ke berbagai sumber data, mengubah data, lalu mentransfernya ke berbagai sistem tujuan, tanpa harus mengelola infrastruktur.

Cloud Data Fusion didukung oleh project open source CDAP.

Mulai menggunakan Cloud Data Fusion

Anda dapat mulai menjelajahi Cloud Data Fusion dalam hitungan menit.

Membuat instance Cloud Data Fusion: mulai dengan membuat instance Cloud Data Fusion.
Biaya: sebelum memulai perjalanan, pahami biaya Cloud Data Fusion.
Konsep: memahami terminologi utama yang digunakan di Cloud Data Fusion.
Panduan memulai: rasakan Cloud Data Fusion dengan membuat pipeline pertama Anda.

Menjelajahi Cloud Data Fusion

Komponen utama Cloud Data Fusion dijelaskan di bagian berikut.

Project tenant

Kumpulan layanan yang diperlukan untuk mem-build dan mengatur pipeline Cloud Data Fusion serta menyimpan metadata pipeline disediakan di project tenant, di dalam unit tenancy. Project tenant terpisah dibuat untuk setiap project pelanggan, tempat instance Cloud Data Fusion disediakan. Project tenant mewarisi semua konfigurasi jaringan dan firewall dari project pelanggan.

Cloud Data Fusion: Konsol

Konsol Cloud Data Fusion, yang juga disebut sebagai bidang kontrol, adalah kumpulan operasi API dan antarmuka web yang menangani instance Cloud Data Fusion itu sendiri, seperti membuat, menghapus, memulai ulang, dan mengupdatenya.

Cloud Data Fusion: Studio

Cloud Data Fusion Studio, yang juga disebut sebagai data plane, adalah kumpulan REST API dan operasi antarmuka web yang menangani pembuatan, eksekusi, dan pengelolaan pipeline serta artefak terkait.

Konsep

Bagian ini memperkenalkan beberapa konsep inti Cloud Data Fusion.

Konsep	Deskripsi
Instance Cloud Data Fusion	Instance Cloud Data Fusion adalah deployment unik dari Cloud Data Fusion. Untuk memulai Cloud Data Fusion, Anda membuat instance Cloud Data Fusion melalui konsol Google Cloud . Anda dapat membuat beberapa instance dalam satu project konsol Google Cloud dan dapat menentukan region Google Cloud tempat instance Cloud Data Fusion dibuat. Berdasarkan persyaratan dan batasan biaya, Anda dapat membuat instance Developer, Basic, atau Enterprise. Setiap instance Cloud Data Fusion berisi deployment Cloud Data Fusion unik dan independen yang berisi serangkaian layanan, yang menangani pengelolaan siklus proses pipeline, orkestrasi, koordinasi, dan pengelolaan metadata. Layanan ini berjalan menggunakan resource yang berjalan lama di project tenant.
Namespace	Namespace adalah pengelompokan aplikasi, data, dan metadata terkait secara logis dalam instance Cloud Data Fusion. Anda dapat menganggap namespace sebagai partisi instance. Dalam satu instance, satu namespace menyimpan data dan metadata entity secara independen dari namespace lain.
Pipeline	Pipeline adalah cara untuk mendesain data dan mengontrol aliran secara visual untuk mengekstrak, mengubah, menggabungkan, mengagregasi, dan memuat data dari berbagai sumber data lokal dan cloud. Dengan membuat pipeline, Anda dapat membuat alur kerja pemrosesan data yang kompleks yang dapat membantu Anda menyelesaikan masalah penyerapan, integrasi, dan migrasi data. Anda dapat menggunakan Cloud Data Fusion untuk membuat pipeline batch dan real-time, bergantung pada kebutuhan Anda. Pipeline memungkinkan Anda mengekspresikan alur kerja pemrosesan data menggunakan aliran data yang logis, sementara Cloud Data Fusion menangani semua fungsi yang diperlukan untuk dijalankan secara fisik di lingkungan eksekusi.
Node pipeline	Di halaman Studio pada antarmuka web Cloud Data Fusion, pipeline direpresentasikan sebagai serangkaian node yang disusun dalam directed acyclic graph (DAG), membentuk alur satu arah. Node mewakili berbagai tindakan yang dapat Anda lakukan dengan pipeline, seperti membaca dari sumber, melakukan transformasi data, dan menulis output ke sink. Anda dapat mengembangkan pipeline data di antarmuka web Cloud Data Fusion dengan menghubungkan sumber, transformasi, sink, dan node lainnya.
Plugin	Plugin adalah modul yang dapat disesuaikan yang dapat digunakan untuk memperluas kemampuan Cloud Data Fusion. Cloud Data Fusion menyediakan plugin untuk sumber, transformasi, agregat, sink, pengumpul error, penayang pemberitahuan, tindakan, dan tindakan pasca-operasi. Plugin terkadang disebut sebagai node, biasanya dalam konteks antarmuka web Cloud Data Fusion. Untuk menemukan dan mengakses plugin Cloud Data Fusion yang populer, lihat Plugin Cloud Data Fusion.
Hub	Di antarmuka web Cloud Data Fusion, untuk menjelajahi plugin, contoh pipeline, dan integrasi lainnya, klik Hub. Saat versi baru plugin dirilis, plugin tersebut akan terlihat di Hub dalam instance apa pun yang kompatibel. Hal ini berlaku meskipun instance dibuat sebelum plugin dirilis.
Pratinjau pipeline	Cloud Data Fusion Studio memungkinkan Anda menguji akurasi desain pipeline menggunakan Pratinjau pada subset data. Pipeline dalam pratinjau berjalan di project tenant.
Eksekusi pipeline	Cloud Data Fusion membuat lingkungan eksekusi sementara untuk menjalankan pipeline. Cloud Data Fusion mendukung Dataproc sebagai lingkungan eksekusi Cloud Data Fusion menyediakan cluster Dataproc sementara di project pelanggan Anda pada awal eksekusi pipeline, menjalankan pipeline menggunakan Spark di cluster, lalu menghapus cluster setelah eksekusi pipeline selesai. Atau, jika Anda mengelola cluster Dataproc di lingkungan terkontrol, melalui teknologi seperti Terraform, Anda juga dapat mengonfigurasi Cloud Data Fusion agar tidak menyediakan cluster. Di lingkungan tersebut, Anda dapat menjalankan pipeline terhadap cluster Dataproc yang ada.
Profil komputasi	Profil komputasi menentukan cara dan tempat pipeline dieksekusi. Profil mengenkapsulasi informasi apa pun yang diperlukan untuk menyiapkan dan menghapus lingkungan eksekusi fisik pipeline. Misalnya, profil komputasi mencakup hal berikut: Penyedia eksekusi Resource (memori dan CPU) Jumlah node minimum dan maksimum Nilai lainnya Profil diidentifikasi berdasarkan nama dan harus diberi penyedia serta konfigurasi terkaitnya. Profil dapat berada di tingkat instance Cloud Data Fusion atau di tingkat namespace. Profil komputasi default Cloud Data Fusion adalah Penskalaan Otomatis.
Pipeline yang dapat digunakan kembali	Pipeline data yang dapat digunakan kembali di Cloud Data Fusion memungkinkan pembuatan satu pipeline yang dapat menerapkan pola integrasi data ke berbagai kasus penggunaan dan set data. Pipeline yang dapat digunakan kembali memberikan pengelolaan yang lebih baik dengan menetapkan sebagian besar konfigurasi pipeline pada waktu eksekusi, bukan melakukan hard code pada waktu desain.
Pemicu	Cloud Data Fusion mendukung pembuatan pemicu pada pipeline data (disebut pipeline downstream), agar dapat dijalankan saat selesainya satu atau beberapa pipeline yang berbeda (disebut pipeline upstream). Anda memilih kapan pipeline downstream dijalankan—misalnya, setelah keberhasilan, kegagalan, penghentian, atau kombinasi dari hal tersebut, dari pipeline upstream yang dijalankan. Pemicu berguna dalam kasus berikut: Membersihkan data Anda satu kali, lalu menyediakannya ke beberapa pipeline downstream untuk digunakan. Membagikan informasi, seperti argumen runtime dan konfigurasi plugin, di antara pipeline. Hal ini disebut Konfigurasi payload. Memiliki kumpulan pipeline dinamis yang dapat berjalan menggunakan data jam, hari, minggu, atau bulan, bukan menggunakan pipeline statis yang harus diperbarui pada setiap operasi.

Referensi Cloud Data Fusion

Jelajahi referensi Cloud Data Fusion:

Catatan rilis memberikan log perubahan fitur, perubahan, dan penghentian penggunaan
Harga untuk Cloud Data Fusion
Region yang didukung untuk Cloud Data Fusion
API dan referensi

Langkah berikutnya

Lihat kasus penggunaan Cloud Data Fusion.
Buat instance Cloud Data Fusion.
Pelajari tutorial.