Silsilah data seperti GPS untuk informasi bisnis, yang memetakan perjalanan lengkapnya dan menunjukkan dari mana data berasal, ke mana data pergi, dan semua langkah yang diambil selama proses tersebut. Dengan melacak perjalanan ini, organisasi dapat memperoleh kepercayaan terhadap data mereka dan menggunakannya untuk pengambilan keputusan penting.
Silsilah data adalah peta siklus proses data, yang menunjukkan asal data, bagaimana data bergerak dan bertransformasi dari waktu ke waktu, dan di mana data berada sekarang. Silsilah data menyediakan audit trail yang jelas untuk memahami, melacak, dan memvalidasi data.
Tampilan komprehensif ini mencakup sistem sumber, semua transformasi yang diterapkan (seperti kalkulasi, agregasi, atau filter), dan tujuan tempat data digunakan, seperti laporan, dasbor, atau aplikasi lainnya. Anggap saja sebagai silsilah keluarga yang mendetail untuk setiap informasi yang digunakan perusahaan Anda.
Meskipun sering digunakan bersamaan, silsilah data dan asal-usul data berfokus pada aspek berbeda dari perjalanan data.
Singkatnya, silsilah menunjukkan seluruh evolusi data dari waktu ke waktu dan di seluruh sistem, sedangkan asal-usul sering kali berfokus pada sumber dan keaslian elemen data tertentu.
Menangkap silsilah data dulunya merupakan proses yang sulit dan sebagian besar manual, tetapi solusi cloud modern membantu menjadikannya sangat otomatis. Konsep intinya adalah mengamati bagaimana data bergerak dan berubah di seluruh infrastruktur Anda, lalu membuat catatan visual yang dapat dilacak.
Platform data modern menggunakan teknik seperti penguraian dan pemantauan untuk menemukan dan memetakan alur data secara otomatis.
Data Lineage API adalah teknologi utama di sini. Data Catalog memungkinkan berbagai sistem dan alat melaporkan penggunaan data mereka ke katalog pusat. Misalnya, alat integrasi data dapat menggunakan API untuk memberi tahu sistem pusat, "Saya baru saja memindahkan data dari Tabel A ke Tabel B dan melakukan agregasi." Hal ini menciptakan catatan pergerakan data yang akurat dan hampir real-time tanpa intervensi manual.
Meskipun pengambilan otomatis cocok, mungkin tidak mencakup setiap bagian dari sistem lama atau kustom organisasi. Untuk kasus ini, pengguna dapat mengandalkan pemberian tag metadata manual atau pelaporan kustom. Hal ini melibatkan pakar materi pokok yang mendokumentasikan alur data dan menghubungkannya dalam katalog pusat. Meskipun kurang efisien, terkadang diperlukan untuk melengkapi tampilan end-to-end.
Setelah informasi silsilah ditangkap, informasi tersebut akan disajikan kepada pengguna melalui alat visualisasi, yang biasanya berupa antarmuka web. Alat ini mengambil metadata yang kompleks dan mengubahnya menjadi diagram atau grafik interaktif yang lebih mudah dibaca. Pengguna dapat mengklik laporan atau tabel dan langsung melihat diagram alur setiap sumber upstream dan konsumen downstream, sehingga memahami perjalanan data menjadi semudah mengikuti garis di peta.
Peta silsilah data yang baik dapat membantu Anda menjawab pertanyaan "siapa, apa, kapan, di mana, dan mengapa" dengan cepat tentang aset data apa pun. Komponen penting yang dilacak meliputi:
Silsilah data bukan hanya latihan teknis, tetapi juga dapat membantu mendorong nilai bisnis yang nyata dengan meningkatkan cara organisasi mengelola dan mempercayai datanya.
Peningkatan tata kelola dan kepatuhan data
Silsilah data membantu organisasi membuktikan dengan tepat sumber data mana yang digunakan untuk membuat laporan sensitif, yang sering kali diperlukan untuk kepatuhan terhadap peraturan seperti GDPR, CCPA, atau HIPAA.
Analisis akar masalah yang lebih cepat untuk masalah kualitas data
Silsilah memungkinkan tim teknis dengan cepat melacak titik data yang salah ke belakang, melewati berbagai transformasi dan sistem, hingga ke sumber persis tempat error tersebut terjadi.
Analisis dampak yang lebih baik untuk perubahan sistem
Silsilah data memberikan analisis dampak instan. Dengan menelusuri perubahan yang diusulkan, tim dapat melihat setiap laporan, dasbor, atau aplikasi yang bergantung pada data tersebut, sehingga mereka dapat menilai risiko dan memberi tahu konsumen data sebelum perubahan merusak apa pun.
Peningkatan kepercayaan terhadap aset data
Ketika pengguna dapat dengan mudah memverifikasi asal dan langkah transformasi data yang mereka gunakan, kepercayaan mereka terhadap data tersebut akan meningkat secara signifikan. Hal ini dapat menghasilkan keputusan yang lebih berbasis data karena orang tidak mempertanyakan kualitas atau keandalan informasi yang mendasarinya.
Silsilah data ke AI
Silsilah data juga dapat membantu analisis akar masalah untuk model AI. Jika model yang di-deploy mulai menunjukkan penyimpangan (penurunan performa) atau menghasilkan prediksi yang bias, silsilah memungkinkan data scientist dengan cepat melacak kembali ke sumbernya.
Silsilah data dapat dilacak pada berbagai tahap siklus proses pengembangan data dan pada berbagai tingkat detail, bergantung pada kebutuhan.
Silsilah waktu desain menangkap aliran data saat dirancang dan dikonfigurasi di lingkungan pengembangan dan pengujian. Hal ini didasarkan pada pembacaan blueprint pipeline data, seperti skema, skrip, dan konfigurasi tugas ETL. Hal ini akan memberi tahu Anda apa yang harus dilakukan terhadap data.
Silsilah waktu proses menangkap aliran data sebagaimana adanya di lingkungan produksi. Silsilah ini mencatat input dan output spesifik dari tugas dan proses yang dijalankan. Silsilah ini memberi tahu Anda apa yang terjadi pada data, termasuk perilaku atau error yang tidak terduga. Untuk tata kelola data, silsilah waktu proses sering kali dianggap lebih berharga karena mencerminkan realitas.
Tingkat detail yang dicatat disebut granularitas. Organisasi memilih tingkat perincian berdasarkan kebutuhan tata kelola data dan kompleksitas teknis lingkungan mereka.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.