Tentang silsilah data

Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak pergerakan data di seluruh sistem Anda: dari mana asalnya, ke mana data diteruskan, dan transformasi apa yang diterapkan padanya.

Mengapa Anda memerlukan silsilah data?

Berurusan dengan set data besar sering kali melibatkan transformasi data menjadi entity yang disesuaikan dengan kebutuhan project tertentu: file teks, tabel, laporan, dasbor, model.

Misalnya, bayangkan Anda memiliki toko online tempat Anda mencatat setiap pembelian dalam satu tabel SQL. Untuk memudahkan analis bekerja dengan data, Anda mulai menjalankan tugas yang mengekstrak informasi dari satu tabel ini dan menghasilkan tabel yang lebih kecil berdasarkan wilayah, merek, atau harga promo. Selanjutnya, analis Anda akan mulai melakukan hal yang sama: mereka melakukan transformasi lebih lanjut, dengan menggabungkan tabel yang lebih kecil ini dengan sumber data lain untuk menghasilkan lebih banyak tabel.

Hal ini bisa menjadi tantangan besar bagi pemangku kepentingan Anda:

  • Konsumen data tidak dapat menggunakan alat layanan mandiri untuk memahami apakah data berasal dari sumber yang kredibel.
  • Data engineer tidak dapat mencari akar masalah karena kurangnya cara yang andal untuk melacak semua transformasi data.
  • Engineer dan analis data tidak dapat sepenuhnya menilai kemungkinan dampak sebelum mengubah atau menghapus tabel.
  • Gubernur data tidak dapat memahami seberapa sensitif data sensitif digunakan di seluruh organisasi dan memastikan kepatuhan terhadap persyaratan peraturan.

Silsilah data adalah solusi yang memberikan cara praktis untuk:

  • Pahami bagaimana data diambil dan diubah dengan bantuan visualisasi grafik silsilah.
  • Melacak error yang terkait dengan entri dan operasi data kembali ke akar masalahnya.
  • Dukung manajemen perubahan yang lebih baik melalui analisis dampak: hindari periode nonaktif atau error tak terduga, pahami entri dependen, dan berkolaborasi dengan pemangku kepentingan yang relevan.

Grafik visualisasi silsilah

Grafik silsilah data mewakili informasi yang dikumpulkan oleh Data Lineage API untuk entri Data Catalog tertentu:

Grafik contoh menampilkan data dari dua tabel yang diubah lalu digabungkan menjadi tabel baru, dengan panel detail yang menampilkan kode SQL yang terpasang di bagian bawah.
Gambar 1. Contoh grafik visualisasi silsilah di UI Dataplex.

Dataplex bekerja sama dengan Data Lineage API untuk mengidentifikasi entri dengan nama yang sepenuhnya memenuhi syarat dan cocok dengan entity yang dikenali oleh silsilah data. Untuk entri Dataplex yang cocok, Anda dapat mengakses tab Lineage di halaman detailnya dan melihat grafik.

Grafik silsilah menampilkan dua jenis elemen:

  • Tombol lebar persegi panjang yang merepresentasikan entity yang terlibat dalam pembuatan informasi silsilah sebagai sumber atau target peristiwa silsilah.
  • Tombol persegi yang lebih kecil yang mewakili proses yang bertanggung jawab untuk membuat atau memperbarui entity sumber atau target. Tombol proses menggunakan ikon khusus untuk sistem sumber yang melaporkannya ke Data Lineage API. Misalnya, tugas BigQuery menggunakan ikon Ikon proses silsilah BigQuery..

Model informasi silsilah data

Dalam bentuk dasarnya, silsilah adalah catatan data yang diubah dari sumber menjadi target. Data Lineage API mengumpulkan informasi tersebut dan mengelolanya menjadi model data hierarkis menggunakan konsep proses, run, dan peristiwa.

Proses

Proses adalah definisi operasi transformasi data yang didukung untuk sistem tertentu. Dalam konteks silsilah BigQuery, process adalah salah satu jenis tugas yang didukung.

Jalankan

Operasi adalah pelaksanaan suatu proses. Proses dapat memiliki beberapa run. Proses berisi detail seperti waktu mulai dan berakhir, status, atau atribut tambahan. Untuk mengetahui informasi selengkapnya, lihat referensi referensi run.

Peristiwa

Peristiwa mewakili titik waktu saat operasi transformasi data berlangsung dan mengakibatkan pemindahan data antara entity sumber dan target.

Peristiwa berisi daftar link yang menentukan entri mana yang merupakan sumber dan yang merupakan target dalam peristiwa tertentu. Meskipun peristiwa digunakan untuk menghitung grafik visualisasi silsilah data, peristiwa tidak langsung ditampilkan di Konsol Google Cloud. Anda dapat membuat, membaca, dan menghapus (tetapi tidak dapat memperbaruinya) menggunakan Data Lineage API.

Contoh

Perhatikan contoh berikut tempat data disalin di antara tabel BigQuery:

Contoh mengekstrak data dari tabel yang disebut customer_year dan pelanggan untuk mendapatkan tabel bernama top_customer.
Gambar 2. Contoh grafik yang menampilkan sumber data tabel.

Cara data berpindah antar-tabel dijelaskan oleh proses silsilah (ditunjukkan pada grafik dengan ikon Ikon proses silsilah BigQuery.): data dapat berupa kueri CREATE TABLE AS SELECT SQL atau pernyataan INSERT.

Setiap eksekusi pernyataan SQL tersebut akan membentuk run individual. Operasi berisi peristiwa - mencatat tabel mana yang digunakan sebagai sumber dan yang sebagai target. Dalam contoh ini, tabel customer_year dan customers adalah sumber untuk tabel top_customer target.

Pelacakan silsilah data otomatis

Saat Anda mengaktifkan Data Lineage API, sistem Google Cloud yang mendukung silsilah data akan mulai melaporkan pemindahan datanya. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk berbagai sumber data yang berbeda. Lihat bagian berikut untuk detail selengkapnya tentang setiap produk yang didukung.

BigQuery

Mengaktifkan silsilah data di project BigQuery Anda akan menyebabkan Dataplex otomatis mencatat informasi silsilah data untuk:

Tugas penyalinan, kueri, dan pemuatan BigQuery direpresentasikan sebagai proses (klik ikon tampilan kaca pada grafik visualisasi silsilah untuk melihat detail proses). Setiap proses berisi job_id BigQuery dalam daftar atribut untuk tugas BigQuery terbaru.

Layanan lainnya

Silsilah data mendukung integrasi dengan layanan Google Cloud berikut:

Silsilah data untuk sumber data kustom

Anda dapat menggunakan Data Lineage API di Dataplex untuk mencatat informasi silsilah secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.

Dataplex dapat membuat grafik visualisasi untuk silsilah yang dicatat secara manual jika Anda menggunakan fullyQualifiedNames yang cocok dengan nama yang sepenuhnya memenuhi syarat dari entri Data Catalog yang ada. Jika Anda ingin mencatat silsilah untuk sumber data kustom, buat entri Data Catalog kustom terlebih dahulu.

Setiap proses untuk sumber data kustom dapat berisi kunci sql dalam daftar atribut. Nilai kunci tersebut akan digunakan untuk merender sorotan kode di panel detail grafik silsilah data. Pernyataan SQL akan ditampilkan sebagaimana diberikan. Pengguna bertanggung jawab untuk memfilter informasi sensitif. Nama kunci sql peka huruf besar/kecil.

OpenLineage

Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Dataplex dan menampilkan peristiwa ini di Konsol Google Cloud. Untuk mengetahui detailnya, lihat Mengintegrasikan dengan OpenLineage.

Batasan fitur saat ini

  • Semua informasi silsilah disimpan dalam sistem selama 30 hari saja.
  • Informasi silsilah tetap ada setelah Anda menghapus sumber data terkaitnya. Artinya, jika menghapus tabel BigQuery dan entri Data Catalog-nya, Anda masih dapat membaca silsilah untuk tabel tersebut menggunakan API hingga 30 hari.

Mengakses silsilah data

Anda dapat mengakses fungsi silsilah data menggunakan:

Langkah selanjutnya