Tetap teratur dengan koleksi
Simpan dan kategorikan konten berdasarkan preferensi Anda.
Cloud Data Fusion adalah layanan integrasi data perusahaan berbasis cloud dan terkelola sepenuhnya untuk membangun dan mengelola pipeline data dengan cepat. Antarmuka web Cloud Data Fusion memungkinkan Anda mem-build solusi integrasi data yang skalabel. Dengan API ini, Anda dapat terhubung ke berbagai sumber data, mengubah data, lalu
mentransfernya ke berbagai sistem tujuan, tanpa harus mengelola
infrastruktur.
Cloud Data Fusion didukung oleh project open source CDAP.
Mulai menggunakan Cloud Data Fusion
Anda dapat mulai menjelajahi Cloud Data Fusion dalam hitungan menit.
Komponen utama Cloud Data Fusion dijelaskan di bagian berikut.
Project penyewa
Kumpulan layanan yang diperlukan untuk membangun dan mengorkestrasi pipeline Cloud Data Fusion dan metadata pipeline penyimpanan disediakan di project tenant, di dalam unit tenant. Project tenant terpisah dibuat untuk setiap project pelanggan, tempat instance Cloud Data Fusion disediakan. Project tenant mewarisi semua konfigurasi jaringan dan firewall dari project pelanggan.
Cloud Data Fusion: Konsol
Konsol Cloud Data Fusion, yang juga disebut sebagai bidang kontrol, adalah sekumpulan operasi API dan antarmuka web yang menangani instance Cloud Data Fusion itu sendiri, seperti membuat, menghapus, memulai ulang, dan mengupdatenya.
Cloud Data Fusion: Studio
Cloud Data Fusion Studio, juga disebut sebagai bidang data, adalah sekumpulan
REST API dan operasi antarmuka web
yang menangani pembuatan, eksekusi, dan pengelolaan pipeline serta
artefak terkait.
Konsep
Bagian ini memperkenalkan beberapa konsep inti Cloud Data Fusion.
Konsep
Deskripsi
Instance Cloud Data Fusion
Instance Cloud Data Fusion adalah deployment unik Cloud Data Fusion. Untuk mulai menggunakan Cloud Data Fusion, buat instance Cloud Data Fusion melalui Konsol Google Cloud.
Anda dapat membuat beberapa instance dalam satu project Konsol Google Cloud dan dapat menentukan region Google Cloud tempat pembuatan instance Cloud Data Fusion.
Setiap instance Cloud Data Fusion berisi deployment Cloud Data Fusion unik dan independen yang berisi serangkaian layanan yang menangani pengelolaan siklus proses pipeline, orkestrasi, koordinasi, dan pengelolaan metadata. Layanan ini berjalan menggunakan resource yang berjalan lama dalam project tenant.
Namespace
Namespace adalah pengelompokan logis aplikasi, data, dan
metadata terkait dalam instance Cloud Data Fusion. Anda dapat menganggap namespace sebagai partisi instance. Dalam satu instance,
satu namespace menyimpan data dan metadata suatu entity secara terpisah
dari namespace lainnya.
Pipeline
Pipeline adalah cara mendesain data dan mengontrol alur secara visual untuk mengekstrak, mentransformasi, menggabungkan, menggabungkan, dan memuat data dari berbagai sumber data lokal dan cloud.
Dengan membangun pipeline, Anda dapat membuat alur kerja pemrosesan data kompleks yang dapat membantu Anda mengatasi masalah penyerapan, integrasi, dan migrasi data. Anda dapat menggunakan Cloud Data Fusion untuk membangun pipeline batch dan real-time, tergantung kebutuhan Anda.
Pipeline memungkinkan Anda mengekspresikan alur kerja pemrosesan data menggunakan aliran data yang logis, sementara Cloud Data Fusion menangani semua fungsi yang diperlukan untuk berjalan secara fisik di lingkungan eksekusi.
Node pipeline
Pada halaman Studio antarmuka web Cloud Data Fusion, pipeline direpresentasikan sebagai serangkaian node yang disusun dalam directed acyclic graph (DAG), sehingga membentuk alur satu arah.
Node mewakili berbagai tindakan yang dapat dilakukan dengan
pipeline Anda, seperti membaca dari sumber, melakukan transformasi
data, dan menulis output ke sink. Anda dapat mengembangkan pipeline data
di antarmuka web Cloud Data Fusion dengan menghubungkan
sumber, transformasi, sink, dan node lainnya.
Plugin
Plugin adalah modul yang dapat disesuaikan dan dapat digunakan untuk memperluas
kemampuan Cloud Data Fusion.
Cloud Data Fusion menyediakan plugin untuk sumber, transformasi, penggabungan, sink, pengumpul error, penayang pemberitahuan, tindakan, dan tindakan pasca-operasi.
Plugin terkadang disebut sebagai node, biasanya dalam konteks antarmuka web Cloud Data Fusion.
Untuk menemukan dan mengakses plugin Cloud Data Fusion yang populer, lihat
plugin Cloud Data Fusion.
Hub
Di antarmuka web Cloud Data Fusion, untuk menjelajahi plugin, contoh pipeline, dan integrasi lainnya, klik Hub. Saat versi baru plugin dirilis, plugin tersebut akan terlihat di Hub dalam instance apa pun yang kompatibel. Hal ini berlaku meskipun instance dibuat sebelum plugin dirilis.
Pratinjau pipeline
Cloud Data Fusion Studio dapat digunakan untuk menguji akurasi desain pipeline menggunakan Pratinjau pada subkumpulan data.
Pipeline dalam pratinjau berjalan di project tenant.
Eksekusi pipeline
Cloud Data Fusion menciptakan lingkungan eksekusi efemeral untuk menjalankan pipeline.
Cloud Data Fusion mendukung Dataproc sebagai lingkungan eksekusi
Cloud Data Fusion menyediakan cluster Dataproc efemeral dalam project pelanggan Anda di awal proses pipeline, menjalankan pipeline menggunakan Spark di dalam cluster, lalu menghapus cluster setelah eksekusi pipeline selesai.
Atau, jika Anda mengelola cluster Dataproc di lingkungan terkontrol, melalui teknologi seperti Terraform, Anda juga dapat mengonfigurasi Cloud Data Fusion agar tidak menyediakan cluster. Di lingkungan tersebut, Anda dapat menjalankan pipeline terhadap cluster Dataproc yang ada.
Profil komputasi
Profil komputasi menentukan cara dan tempat pipeline dijalankan. Profil merangkum semua informasi yang diperlukan untuk menyiapkan dan menghapus lingkungan eksekusi fisik pipeline.
Profil diidentifikasi berdasarkan nama dan harus ditetapkan ke penyedia
dan konfigurasi yang terkait. Profil dapat berada di tingkat instance Cloud Data Fusion atau di tingkat namespace.
Profil komputasi default Cloud Data Fusion adalah Penskalaan otomatis.
Pipeline yang dapat digunakan kembali
Pipeline data yang dapat digunakan kembali di Cloud Data Fusion memungkinkan pembuatan satu pipeline yang dapat menerapkan pola integrasi data ke berbagai kasus penggunaan dan set data.
Pipeline yang dapat digunakan kembali memberikan pengelolaan yang lebih baik dengan menetapkan sebagian besar konfigurasi pipeline pada waktu eksekusi, bukan melakukan hard-coding pada waktu desain.
Triggers
Cloud Data Fusion mendukung pembuatan pemicu pada pipeline data (disebut pipeline downstream), agar dapat dijalankan pada penyelesaian satu atau beberapa pipeline yang berbeda (disebut pipeline upstream). Anda dapat memilih kapan pipeline downstream berjalan—misalnya, setelah berhasil, gagal, berhenti, atau kombinasi apa pun daripadanya, saat pipeline upstream dijalankan.
Pemicu berguna dalam kasus berikut:
Membersihkan data Anda sekali, lalu menyediakannya untuk beberapa pipeline downstream untuk pemakaian.
Berbagi informasi, seperti argumen runtime dan konfigurasi plugin, antar-pipeline. Hal ini disebut Konfigurasi
payload.
Memiliki kumpulan pipeline dinamis yang dapat dijalankan menggunakan data jam, hari, minggu, atau bulan, bukan menggunakan pipeline statis yang harus diperbarui setiap kali proses berjalan.
Resource Cloud Data Fusion
Pelajari resource Cloud Data Fusion:
Catatan rilis memberikan log perubahan fitur, perubahan, dan penghentian penggunaan
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2024-02-29 UTC."],[],[]]