Mesh data adalah framework arsitektur untuk mengelola data dalam organisasi yang kompleks. Tidak seperti model terpusat, mesh data mendesentralisasi kepemilikan data ke tim khusus domain. Pendekatan ini dapat membantu menghilangkan hambatan dengan memperlakukan data sebagai produk, tetapi juga memperkenalkan persyaratan resource baru. Keberhasilan mesh data bergantung pada tim domain yang memiliki keterampilan data engineering dan kemampuan tata kelola yang spesifik. Bagi organisasi yang memiliki resource untuk mendukung tim terdistribusi, mesh data dapat meningkatkan fleksibilitas. Bagi organisasi yang tidak memilikinya, model terpusat seperti data warehouse atau data lake mungkin tetap menjadi solusi yang lebih efisien.
Mesh data bukan hanya tentang serangkaian alat atau teknologi baru, tetapi juga perubahan dalam cara perusahaan memandang data mereka. Ada empat prinsip utama yang memandu pendekatan mesh data. Prinsip-prinsip inilah yang membuat pendekatan ini sangat efektif dalam memecahkan masalah arsitektur data terpusat dan tradisional.
Dalam arsitektur data tradisional, satu tim pusat, seperti tim IT atau data engineering, bertanggung jawab atas semua data. Dalam mesh data, kepemilikan data tersebar ke domain bisnis yang membuat data. Misalnya, tim penjualan akan memiliki data pelanggan yang mereka hasilkan, dan tim pemasaran akan memiliki data kampanye yang mereka buat. Hal ini membuat tim menjadi lebih bertanggung jawab dan akuntabel terhadap data yang mereka hasilkan.
Dengan kepemilikan berorientasi domain, tim yang membuat data juga harus memperlakukannya seperti produk. Sama seperti perusahaan yang menyediakan produk berkualitas tinggi bagi pelanggan, tim domain data perlu menyediakan data berkualitas tinggi bagi tim lain yang membutuhkannya. Artinya, data mudah ditemukan, dipahami, dan digunakan. Data juga harus tepercaya, aman, dan terdokumentasi dengan baik, yang dilengkapi dengan kontrol akses bawaan sehingga hanya orang yang tepat yang dapat mengakses data yang ditujukan untuk kasus penggunaan mereka.
Untuk memungkinkan data diperlakukan sebagai produk, mesh data menggunakan platform layanan mandiri. Platform ini adalah serangkaian alat dan layanan yang memungkinkan tim domain data membuat dan mengelola produk data mereka dengan mudah tanpa memerlukan bantuan dari tim data pusat. Hal ini dapat berupa platform sederhana dan mudah digunakan yang mengotomatiskan banyak tugas teknis yang terlibat dalam pengelolaan data, seperti penyimpanan data, keamanan, dan tata kelola.
Karena data terdesentralisasi dan tersebar di banyak tim yang berbeda, perlu ada cara untuk memastikan semua orang mengikuti aturan yang sama. Di sinilah tata kelola komputasi gabungan berperan. Ini adalah model di mana tim pusat yang kecil menetapkan aturan dan standar global untuk semua data. Namun, penerapan aturan ini ditangani oleh tim domain data itu sendiri. Hal ini menggabungkan yang terbaik dari keduanya: kebijakan terpusat dengan eksekusi terdesentralisasi.
Produk data dalam mesh data harus mudah ditemukan, dapat diakses, tepercaya, memiliki deskripsi mandiri, dan aman. Konsumen data harus dapat dengan mudah menemukan data, memahami isi data, dan mengetahui bahwa data tersebut berkualitas tinggi. Selain itu, harus ada aturan akses yang jelas dan konsisten untuk memastikan keamanan data.
Memulai mesh data adalah proses bertahap. Sebaiknya, mulailah dengan project uji coba kecil dan beberapa tim domain yang bersedia. Mulailah dengan mengidentifikasi domain bisnis yang dapat memperoleh manfaat dari otonomi data yang lebih besar. Kemudian, buat platform layanan mandiri minimal yang memungkinkan tim tersebut membuat produk data. Seiring dengan keberhasilan project, Anda dapat menggunakan hasilnya sebagai bukti konsep untuk meyakinkan organisasi secara keseluruhan agar mendukung arsitektur mesh data.
Salah satu tantangan terbesar adalah perubahan budaya. Tim data terpusat mungkin kesulitan untuk melepaskan kontrol. Ada juga tantangan teknis, seperti memastikan keamanan data dan mengelola sistem terdistribusi. Namun, dengan perencanaan yang matang dan strategi komunikasi yang jelas, tantangan ini dapat diatasi.
Mesh data dirancang untuk berfungsi dengan sistem data yang ada. Anda tidak perlu membuang data lake atau data warehouse yang ada saat ini. Sebaliknya, AI generatif dapat diterapkan pada sistem tersebut. Mesh data dapat bertindak sebagai lapisan baru yang menyediakan cara terpadu dan mandiri bagi tim untuk mengakses data dari berbagai sumber.
Kesalahpahaman umum adalah bahwa mesh data merupakan produk yang dapat dibeli. Tetapi, tidak. Ini adalah cara baru untuk mengatur dan mengelola data. Mitos lainnya adalah bahwa AI generatif hanya untuk perusahaan besar. Meskipun paling umum diterapkan di perusahaan besar, prinsip ini juga dapat diterapkan pada organisasi yang lebih kecil.
Mengukur keberhasilan mesh data bisa jadi rumit karena manfaat awalnya sering kali bukan manfaat finansial. Sebagai gantinya, Anda dapat mengukur kesuksesan dengan melihat hal-hal seperti kecepatan pengiriman data, jumlah tim yang menggunakan platform data, dan kepercayaan tim terhadap data yang mereka gunakan. Seiring waktu, peningkatan ini dapat menghasilkan hasil bisnis yang lebih baik dan laba atas investasi (ROI) yang lebih tinggi.
Pendekatan mesh data dibuat untuk mengatasi beberapa masalah umum pada arsitektur data tradisional. Model ini, seperti data warehouse atau data lake yang dimiliki oleh masing-masing departemen atau tim, dapat menciptakan silo data dan risiko tata kelola, terutama seiring dengan perkembangan perusahaan. Mesh data mengatasi masalah tersebut dengan mendistribusikan kepemilikan dan memberdayakan tim individual sambil tetap mempertahankan kontrol pusat untuk mengatur dan memantau data di seluruh domain.
Fitur | Mesh data | Arsitektur tradisional |
Model arsitektur | Terdesentralisasi dan terdistribusi di seluruh domain bisnis. | Terpusat dan monolitik, serta dikelola oleh satu tim. |
Kepemilikan data | Data dimiliki oleh tim domain yang membuat dan menggunakannya. | Data dimiliki dan dikelola oleh tim data pusat. |
Akses data | Tim mengakses data melalui produk data standar. | Tim harus melalui tim pusat untuk mendapatkan data. |
Skalabilitas | Dapat diskalakan dengan mudah seiring penambahan tim domain dan produk data baru. | Dapat menjadi hambatan saat organisasi dan volume data berkembang. |
Kualitas data | Tim domain bertanggung jawab atas kualitas data mereka sendiri, yang dapat meningkatkan kepercayaan dan akurasi. | Kualitas data dapat menjadi tidak konsisten karena tim pusat mungkin tidak memiliki konteks setiap domain. |
Tata kelola data | Tata kelola gabungan dengan standar dan aturan global yang ditetapkan secara terpusat, namun diterapkan oleh tim domain. | Tata kelola terpusat dan ditangani sepenuhnya oleh satu tim. |
Kasus penggunaan | Dapat menjadi pilihan terbaik untuk organisasi besar dan kompleks dengan beragam data dan unit bisnis independen. | Dapat menjadi pilihan terbaik untuk organisasi yang lebih kecil atau untuk kasus penggunaan spesifik yang memerlukan satu sumber kebenaran. |
Keahlian teknis/resource yang dibutuhkan | Memerlukan keterampilan teknis terdistribusi (engineering, tata kelola) dalam setiap tim domain. | Memusatkan keahlian teknis dalam satu tim inti IT atau data engineering. |
Mesh data
Arsitektur tradisional
Model arsitektur
Terdesentralisasi dan terdistribusi di seluruh domain bisnis.
Terpusat dan monolitik, serta dikelola oleh satu tim.
Kepemilikan data
Data dimiliki oleh tim domain yang membuat dan menggunakannya.
Data dimiliki dan dikelola oleh tim data pusat.
Akses data
Tim mengakses data melalui produk data standar.
Tim harus melalui tim pusat untuk mendapatkan data.
Skalabilitas
Dapat diskalakan dengan mudah seiring penambahan tim domain dan produk data baru.
Dapat menjadi hambatan saat organisasi dan volume data berkembang.
Kualitas data
Tim domain bertanggung jawab atas kualitas data mereka sendiri, yang dapat meningkatkan kepercayaan dan akurasi.
Kualitas data dapat menjadi tidak konsisten karena tim pusat mungkin tidak memiliki konteks setiap domain.
Tata kelola data
Tata kelola gabungan dengan standar dan aturan global yang ditetapkan secara terpusat, namun diterapkan oleh tim domain.
Tata kelola terpusat dan ditangani sepenuhnya oleh satu tim.
Kasus penggunaan
Dapat menjadi pilihan terbaik untuk organisasi besar dan kompleks dengan beragam data dan unit bisnis independen.
Dapat menjadi pilihan terbaik untuk organisasi yang lebih kecil atau untuk kasus penggunaan spesifik yang memerlukan satu sumber kebenaran.
Keahlian teknis/resource yang dibutuhkan
Memerlukan keterampilan teknis terdistribusi (engineering, tata kelola) dalam setiap tim domain.
Memusatkan keahlian teknis dalam satu tim inti IT atau data engineering.
Pendekatan mesh data dapat sangat berguna bagi organisasi besar dan kompleks yang memiliki banyak unit bisnis serta data dalam jumlah besar. Berikut adalah beberapa kasus penggunaan umum di mana mesh data dapat memberikan manfaat yang signifikan.
Mesh data dapat membantu organisasi mendapatkan lebih banyak manfaat dari analisis data dan inisiatif business intelligence (BI). Dengan produk data dari berbagai domain, data scientist dan analis dapat memperoleh pandangan yang lebih lengkap tentang bisnis. Misalnya, perusahaan retail dapat menggabungkan data pelanggan dari domain penjualan dengan data traffic web dari domain pemasaran untuk lebih memahami perilaku pelanggan.
Inisiatif Customer 360 bertujuan untuk menciptakan pandangan lengkap tentang pelanggan dengan menggabungkan data dari berbagai sumber. Hal ini dapat menjadi tantangan dalam arsitektur data terpusat karena data sering kali terisolasi di berbagai departemen. Mesh data mempermudah hal tersebut dengan menyediakan cara terstandardisasi untuk mengakses dan menggabungkan produk data dari berbagai domain, seperti penjualan, pemasaran, dan dukungan.
Dalam jasa keuangan, jaringan data dapat digunakan untuk pemantauan real-time dan deteksi penipuan. Sebuah bank, misalnya, dapat memiliki produk data transaksi dan produk lain untuk data login nasabah. Kemudian, sistem deteksi penipuan dapat mengakses kedua produk data untuk mengidentifikasi aktivitas mencurigakan. Sifat terdesentralisasi dari jaringan data dapat membantu kecepatan dan keandalan yang dibutuhkan untuk aplikasi semacam ini.
Semakin bertambah rumitnya peraturan privasi data, akan semakin sulit untuk memastikan kepatuhan dalam model data terpusat. Mesh data dapat membantu kepatuhan regulasi dengan memungkinkan tim domain mengelola produk data mereka sendiri dan memastikan kepatuhan terhadap undang-undang setempat. Hal ini terutama penting bagi perusahaan multinasional yang perlu mematuhi aturan kedaulatan data yang berbeda di berbagai negara.
Aplikasi AI dan agen tingkat lanjut memerlukan data berkualitas tinggi dan kaya konteks agar berfungsi secara efektif. Dalam mesh data, tim domain menyeleksi data khusus untuk konsumsi, serta memastikan data tersebut bersih, berlabel, dan terdokumentasi. Hal ini memungkinkan data scientist untuk melatih model pada input yang andal tanpa menghabiskan banyak waktu pada persiapan data. Selain itu, agen AI dapat mengakses produk data modular ini melalui API untuk mengambil informasi secara real-time, yang memungkinkan mereka untuk melakukan tugas-tugas kompleks di berbagai domain bisnis dengan akurasi yang lebih baik.
Mengadopsi mesh data dapat memberikan manfaat yang signifikan bagi suatu organisasi. Dengan beralih ke model terdesentralisasi, perusahaan dapat mengatasi hambatan arsitektur tradisional dan mencapai hasil bisnis yang lebih baik.
Fleksibilitas dan skalabilitas
Mesh data bisa menjadi lebih fleksibel. Setiap domain data dapat bekerja secara independen, yang memungkinkan organisasi untuk berkembang dan berevolusi lebih cepat. Hal ini dapat mempermudah penambahan produk dan layanan data baru tanpa menimbulkan gangguan.
Kualitas dan kepercayaan data
Mesh data dapat menetapkan akuntabilitas kepada tim domain yang menghasilkan data. Karena tim domain juga merupakan konsumen utama dari data mereka sendiri, mereka memiliki insentif yang kuat untuk memastikan kualitasnya. Hal ini dapat menghasilkan data yang lebih tepercaya.
Efisiensi biaya
Mesh data juga dapat membantu perusahaan lebih menghemat biaya. Dengan platform data terpusat, tim sering kali harus menunggu tim data pusat untuk membantu dengan kebutuhan data mereka. Hal ini dapat menyebabkan penundaan dan pemborosan resource.
Dataplex Universal Catalog berfungsi sebagai data fabric terpadu dan menyediakan lapisan tata kelola terpusat atas mesh data Anda. Ini dapat membantu Anda menemukan, mengelola, dan mengatur data terdistribusi di berbagai lingkungan, serta memastikan Anda memiliki satu sumber kebenaran untuk metadata dan kebijakan. Untuk memulai, Anda harus membuat Dataplex lake. Dataplex lake adalah container tingkat atas yang menyimpan data Anda dan biasanya dipetakan ke domain bisnis.
Berikut langkah-langkah untuk membuat Dataplex lake:
Dataplex kemudian secara otomatis memindai aset ini untuk menemukan dan membuat katalog metadata.
Bagian penting dari prinsip "data sebagai produk" adalah membuat data mudah ditemukan. Berbagi data BigQuery memungkinkan Anda membangun marketplace produk data. Fitur ini memungkinkan tim domain untuk berbagi produk data dengan tim lainnya secara aman tanpa menyalin atau memindahkan data. Hal ini dapat membantu konsumen data menemukan data yang mereka butuhkan dan memberi mereka antarmuka yang jelas dan terdefinisi dengan baik untuk mengaksesnya.
Layanan serverless Google Cloud memberdayakan tim domain untuk membuat dan mengelola produk data mereka sendiri dengan beban minimal. BigQuery adalah data warehouse serverless yang canggih yang memungkinkan tim menganalisis kumpulan data besar dengan cepat dan efisien. Dataflow adalah layanan pemrosesan data serverless yang dapat digunakan untuk membangun dan mengotomatiskan pipeline data untuk produk data. Layanan ini mengurangi kebutuhan tim data engineering pusat untuk mengelola infrastruktur, sehingga membuat tim domain menjadi lebih otonom dan fleksibel.
Tata kelola komputasi gabungan adalah prinsip di mana tim pusat menentukan aturan global, tetapi mengizinkan tim domain menerapkannya. Kondisi Identity and Access Management (IAM) Google Cloud menyediakan alat untuk mengimplementasikan hal ini. Kondisi IAM memungkinkan kontrol akses berbasis atribut (ABAC), di mana Anda dapat mengatur izin terperinci berdasarkan atribut data. Misalnya, Anda dapat membuat kebijakan yang hanya mengizinkan pengguna untuk mengakses data pelanggan dari region spesifik mereka, yang membantu memastikan kepatuhan terhadap peraturan kedaulatan data seperti GDPR.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.