Apa itu silsilah data?

Silsilah data seperti GPS untuk informasi bisnis, yang memetakan perjalanan lengkapnya dan menunjukkan dari mana data berasal, ke mana data pergi, dan semua langkah yang diambil selama proses tersebut. Dengan melacak perjalanan ini, organisasi dapat memperoleh kepercayaan terhadap data mereka dan menggunakannya untuk pengambilan keputusan penting.

Definisi silsilah data

Silsilah data adalah peta siklus proses data, yang menunjukkan asal data, bagaimana data bergerak dan bertransformasi dari waktu ke waktu, dan di mana data berada sekarang. Silsilah data menyediakan audit trail yang jelas untuk memahami, melacak, dan memvalidasi data.

Tampilan komprehensif ini mencakup sistem sumber, semua transformasi yang diterapkan (seperti kalkulasi, agregasi, atau filter), dan tujuan tempat data digunakan, seperti laporan, dasbor, atau aplikasi lainnya. Anggap saja sebagai silsilah keluarga yang mendetail untuk setiap informasi yang digunakan perusahaan Anda.

Silsilah data versus provenans data

Meskipun sering digunakan bersamaan, silsilah data dan asal-usul data berfokus pada aspek berbeda dari perjalanan data.

  • Silsilah data melihat perjalanan data dari perspektif makro, historis, dan strategis. Silsilah data berfokus pada jalur lengkap dan logika transformasi yang mengarah ke status aset data saat ini. Ini seluruh peta.
  • Provenansi data lebih terperinci dan spesifik, sering kali berfokus pada sumber langsung dan kepemilikan titik data atau kumpulan data tertentu pada satu titik waktu. Teknik ini sering digunakan untuk mengautentikasi asal data.

Singkatnya, silsilah menunjukkan seluruh evolusi data dari waktu ke waktu dan di seluruh sistem, sedangkan asal-usul sering kali berfokus pada sumber dan keaslian elemen data tertentu.

Cara kerja silsilah data

Menangkap silsilah data dulunya merupakan proses yang sulit dan sebagian besar manual, tetapi solusi cloud modern membantu menjadikannya sangat otomatis. Konsep intinya adalah mengamati bagaimana data bergerak dan berubah di seluruh infrastruktur Anda, lalu membuat catatan visual yang dapat dilacak.

Platform data modern menggunakan teknik seperti penguraian dan pemantauan untuk menemukan dan memetakan alur data secara otomatis.

  • Penguraian: Platform ini dapat membaca dan memahami logika transformasi yang ditulis dalam bahasa seperti SQL. Dengan membaca kueri (misalnya, dalam tugas BigQuery), sistem dapat melihat tabel dan kolom sumber mana yang digunakan untuk membuat tabel turunan baru.
  • Pemantauan: Platform ini memantau pergerakan data antar-layanan (seperti dari data warehouse ke data lake atau pipeline streaming).

Data Lineage API adalah teknologi utama di sini. Data Catalog memungkinkan berbagai sistem dan alat melaporkan penggunaan data mereka ke katalog pusat. Misalnya, alat integrasi data dapat menggunakan API untuk memberi tahu sistem pusat, "Saya baru saja memindahkan data dari Tabel A ke Tabel B dan melakukan agregasi." Hal ini menciptakan catatan pergerakan data yang akurat dan hampir real-time tanpa intervensi manual.

Meskipun pengambilan otomatis cocok, mungkin tidak mencakup setiap bagian dari sistem lama atau kustom organisasi. Untuk kasus ini, pengguna dapat mengandalkan pemberian tag metadata manual atau pelaporan kustom. Hal ini melibatkan pakar materi pokok yang mendokumentasikan alur data dan menghubungkannya dalam katalog pusat. Meskipun kurang efisien, terkadang diperlukan untuk melengkapi tampilan end-to-end.

Setelah informasi silsilah ditangkap, informasi tersebut akan disajikan kepada pengguna melalui alat visualisasi, yang biasanya berupa antarmuka web. Alat ini mengambil metadata yang kompleks dan mengubahnya menjadi diagram atau grafik interaktif yang lebih mudah dibaca. Pengguna dapat mengklik laporan atau tabel dan langsung melihat diagram alur setiap sumber upstream dan konsumen downstream, sehingga memahami perjalanan data menjadi semudah mengikuti garis di peta.

Komponen utama peta silsilah data

Peta silsilah data yang baik dapat membantu Anda menjawab pertanyaan "siapa, apa, kapan, di mana, dan mengapa" dengan cepat tentang aset data apa pun. Komponen penting yang dilacak meliputi:

  • Sumber: Asal data, seperti database transaksional, file, atau sistem eksternal
  • Logika transformasi: Operasi atau aturan bisnis spesifik yang diterapkan pada data; ini mungkin mencakup kueri SQL, skrip Python, atau logika tugas ETL (Extract, Transform, Load)
  • Jalur/alur: Urutan sistem, proses, dan penyimpanan data yang dilalui data
  • Waktu/versi: Kapan data diproses dan versi data atau logika transformasi mana yang digunakan
  • Tujuan/konsumen: Tempat penyimpanan akhir data dan siapa atau apa yang menggunakannya, seperti mesin atau laporan ke regulator

Manfaat silsilah data

Silsilah data bukan hanya latihan teknis, tetapi juga dapat membantu mendorong nilai bisnis yang nyata dengan meningkatkan cara organisasi mengelola dan mempercayai datanya.

Peningkatan tata kelola dan kepatuhan data

Silsilah data membantu organisasi membuktikan dengan tepat sumber data mana yang digunakan untuk membuat laporan sensitif, yang sering kali diperlukan untuk kepatuhan terhadap peraturan seperti GDPR, CCPA, atau HIPAA.

Analisis akar masalah yang lebih cepat untuk masalah kualitas data

Silsilah memungkinkan tim teknis dengan cepat melacak titik data yang salah ke belakang, melewati berbagai transformasi dan sistem, hingga ke sumber persis tempat error tersebut terjadi.

Analisis dampak yang lebih baik untuk perubahan sistem

Silsilah data memberikan analisis dampak instan. Dengan menelusuri perubahan yang diusulkan, tim dapat melihat setiap laporan, dasbor, atau aplikasi yang bergantung pada data tersebut, sehingga mereka dapat menilai risiko dan memberi tahu konsumen data sebelum perubahan merusak apa pun.

Peningkatan kepercayaan terhadap aset data

Ketika pengguna dapat dengan mudah memverifikasi asal dan langkah transformasi data yang mereka gunakan, kepercayaan mereka terhadap data tersebut akan meningkat secara signifikan. Hal ini dapat menghasilkan keputusan yang lebih berbasis data karena orang tidak mempertanyakan kualitas atau keandalan informasi yang mendasarinya.

Silsilah data ke AI

Silsilah data juga dapat membantu analisis akar masalah untuk model AI. Jika model yang di-deploy mulai menunjukkan penyimpangan (penurunan performa) atau menghasilkan prediksi yang bias, silsilah memungkinkan data scientist dengan cepat melacak kembali ke sumbernya.

Jenis data silsilah umum

Silsilah data dapat dilacak pada berbagai tahap siklus proses pengembangan data dan pada berbagai tingkat detail, bergantung pada kebutuhan.

Silsilah waktu desain

Silsilah waktu desain menangkap aliran data saat dirancang dan dikonfigurasi di lingkungan pengembangan dan pengujian. Hal ini didasarkan pada pembacaan blueprint pipeline data, seperti skema, skrip, dan konfigurasi tugas ETL. Hal ini akan memberi tahu Anda apa yang harus dilakukan terhadap data.

Silsilah waktu proses

Silsilah waktu proses menangkap aliran data sebagaimana adanya di lingkungan produksi. Silsilah ini mencatat input dan output spesifik dari tugas dan proses yang dijalankan. Silsilah ini memberi tahu Anda apa yang terjadi pada data, termasuk perilaku atau error yang tidak terduga. Untuk tata kelola data, silsilah waktu proses sering kali dianggap lebih berharga karena mencerminkan realitas.

Tingkat silsilah terperinci

Tingkat detail yang dicatat disebut granularitas. Organisasi memilih tingkat perincian berdasarkan kebutuhan tata kelola data dan kompleksitas teknis lingkungan mereka.

  • Tingkat tabel: Melacak aliran data antara seluruh tabel atau set data; menunjukkan bahwa 'Tabel Pelanggan A' mengalir ke 'Tabel Laporan Penjualan B'
  • Contoh: Sistem menunjukkan bahwa seluruh tabel raw_transactions dimuat ke dalam tabel daily_aggregations
  • Tingkat kolom: Melacak alur data dari kolom sumber ke kolom target, termasuk transformasi yang diterapkan; hal ini sering kali diperlukan untuk kepatuhan
  • Contoh: Melacak bahwa kolom customer_id dari database sumber diubah namanya menjadi user_key di data warehouse, lalu digunakan sebagai bagian dari gabungan untuk membuat final_report
  • Tingkat laporan: Melacak laporan, dasbor, atau aplikasi mana yang menggunakan tabel dan kolom mana; hal ini penting untuk analisis dampak dan kepercayaan pengguna bisnis
  • Contoh: Seorang analis bisnis dapat menelusuri metrik di Dasbor Penjualan Eksekutif hingga ke kolom dan tabel spesifik yang digunakan dalam perhitungannya
  • End-to-end: Memberikan tampilan lengkap di semua sistem, mulai dari aplikasi sumber awal (seperti CRM) hingga semua langkah penyiapan, pembersihan, dan transformasi, hingga laporan akhir atau model machine learning
  • Contoh: Melacak perjalanan satu pelanggan sejak mereka pertama kali mendaftar (ditangkap dalam database aplikasi web) hingga ringkasan penggunaan mereka dalam output Model Prediksi Churn

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.