Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak pergerakan data di seluruh sistem Anda: dari mana asalnya, ke mana data diteruskan, dan transformasi apa yang diterapkan padanya.
Mengapa Anda memerlukan silsilah data?
Berurusan dengan set data besar sering kali melibatkan transformasi data menjadi entity yang disesuaikan dengan kebutuhan project tertentu: file teks, tabel, laporan, dasbor, model.
Misalnya, bayangkan Anda memiliki toko online tempat Anda mencatat setiap pembelian dalam satu tabel SQL. Untuk memudahkan analis bekerja dengan data, Anda mulai menjalankan tugas yang mengekstrak informasi dari satu tabel ini dan menghasilkan tabel yang lebih kecil berdasarkan wilayah, merek, atau harga promo. Selanjutnya, analis Anda akan mulai melakukan hal yang sama: mereka melakukan transformasi lebih lanjut, dengan menggabungkan tabel yang lebih kecil ini dengan sumber data lain untuk menghasilkan lebih banyak tabel.
Hal ini bisa menjadi tantangan besar bagi pemangku kepentingan Anda:
- Konsumen data tidak dapat menggunakan alat layanan mandiri untuk memahami apakah data berasal dari sumber yang kredibel.
- Data engineer tidak dapat mencari akar masalah karena kurangnya cara yang andal untuk melacak semua transformasi data.
- Engineer dan analis data tidak dapat sepenuhnya menilai kemungkinan dampak sebelum mengubah atau menghapus tabel.
- Gubernur data tidak dapat memahami seberapa sensitif data sensitif digunakan di seluruh organisasi dan memastikan kepatuhan terhadap persyaratan peraturan.
Silsilah data adalah solusi yang memberikan cara praktis untuk:
- Pahami bagaimana data diambil dan diubah dengan bantuan visualisasi grafik silsilah.
- Melacak error yang terkait dengan entri dan operasi data kembali ke akar masalahnya.
- Dukung manajemen perubahan yang lebih baik melalui analisis dampak: hindari periode nonaktif atau error tak terduga, pahami entri dependen, dan berkolaborasi dengan pemangku kepentingan yang relevan.
Grafik visualisasi silsilah
Grafik silsilah data mewakili informasi yang dikumpulkan oleh Data Lineage API untuk entri Data Catalog tertentu:
Dataplex bekerja sama dengan Data Lineage API untuk mengidentifikasi entri dengan nama yang sepenuhnya memenuhi syarat dan cocok dengan entity yang dikenali oleh silsilah data. Untuk entri Dataplex yang cocok, Anda dapat mengakses tab Lineage di halaman detailnya dan melihat grafik.
Grafik silsilah menampilkan dua jenis elemen:
- Tombol lebar persegi panjang yang merepresentasikan entity yang terlibat dalam pembuatan informasi silsilah sebagai sumber atau target peristiwa silsilah.
- Tombol persegi yang lebih kecil yang mewakili proses yang bertanggung jawab untuk membuat atau memperbarui entity sumber atau target. Tombol proses menggunakan ikon khusus untuk sistem sumber yang melaporkannya ke Data Lineage API. Misalnya, tugas BigQuery menggunakan ikon .
Model informasi silsilah data
Dalam bentuk dasarnya, silsilah adalah catatan data yang diubah dari sumber menjadi target. Data Lineage API mengumpulkan informasi tersebut dan mengelolanya menjadi model data hierarkis menggunakan konsep proses, run, dan peristiwa.
Proses
Proses adalah definisi operasi transformasi data yang didukung untuk sistem tertentu. Dalam konteks silsilah BigQuery, process
adalah salah satu jenis tugas yang didukung.
Jalankan
Operasi adalah pelaksanaan suatu proses. Proses dapat memiliki beberapa run.
Proses berisi detail seperti waktu mulai dan berakhir, status, atau atribut tambahan.
Untuk mengetahui informasi selengkapnya, lihat
referensi referensi run
.
Peristiwa
Peristiwa mewakili titik waktu saat operasi transformasi data berlangsung dan mengakibatkan pemindahan data antara entity sumber dan target.
Peristiwa berisi daftar link yang menentukan entri mana yang merupakan sumber dan yang merupakan target dalam peristiwa tertentu. Meskipun peristiwa digunakan untuk menghitung grafik visualisasi silsilah data, peristiwa tidak langsung ditampilkan di Konsol Google Cloud. Anda dapat membuat, membaca, dan menghapus (tetapi tidak dapat memperbaruinya) menggunakan Data Lineage API.
Contoh
Perhatikan contoh berikut tempat data disalin di antara tabel BigQuery:
Cara data berpindah antar-tabel dijelaskan oleh proses silsilah
(ditunjukkan pada grafik dengan
ikon
): data dapat berupa kueri CREATE TABLE AS SELECT
SQL atau pernyataan INSERT
.
Setiap eksekusi pernyataan SQL tersebut akan membentuk run individual.
Operasi berisi peristiwa - mencatat tabel mana yang digunakan sebagai sumber dan
yang sebagai target. Dalam contoh ini, tabel customer_year
dan customers
adalah sumber untuk tabel top_customer
target.
Pelacakan silsilah data otomatis
Saat Anda mengaktifkan Data Lineage API, sistem Google Cloud yang mendukung silsilah data akan mulai melaporkan pemindahan datanya. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk berbagai sumber data yang berbeda. Lihat bagian berikut untuk detail selengkapnya tentang setiap produk yang didukung.
BigQuery
Mengaktifkan silsilah data di project BigQuery Anda akan menyebabkan Dataplex otomatis mencatat informasi silsilah data untuk:
- Tabel baru sebagai hasil dari tugas BigQuery berikut:
- Tugas penyalinan
- Memuat tugas yang menggunakan URI Cloud Storage untuk memuat data dalam format yang diizinkan dari Cloud Storage*
- Tugas kueri yang menggunakan bahasa definisi data (DDL) berikut di SQL Standar Google:
- Tabel yang ada sebagai hasil dari penggunaan pernyataan bahasa manipulasi data (DML) berikut dalam SQL Standar Google:
- SELECT dalam kaitannya dengan salah satu jenis tabel yang tercantum:
- SISIPKAN PILIHAN
- MERGE
- PERBARUI
- HAPUS
Tugas penyalinan, kueri, dan pemuatan BigQuery direpresentasikan sebagai proses (klik ikon tampilan kaca pada grafik visualisasi silsilah untuk melihat detail proses). Setiap proses berisi job_id BigQuery dalam daftar atribut untuk tugas BigQuery terbaru.
Layanan lainnya
Silsilah data mendukung integrasi dengan layanan Google Cloud berikut:
Silsilah data untuk sumber data kustom
Anda dapat menggunakan Data Lineage API di Dataplex untuk mencatat informasi silsilah secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.
Dataplex dapat membuat grafik visualisasi untuk silsilah yang dicatat secara manual jika Anda menggunakan fullyQualifiedNames
yang cocok dengan nama yang sepenuhnya memenuhi syarat dari entri Data Catalog yang ada. Jika Anda ingin mencatat silsilah untuk sumber data kustom, buat entri Data Catalog kustom terlebih dahulu.
Setiap proses untuk sumber data kustom dapat berisi kunci sql
dalam daftar
atribut. Nilai kunci tersebut akan digunakan untuk merender sorotan kode di panel detail grafik silsilah data. Pernyataan SQL akan ditampilkan sebagaimana
diberikan. Pengguna bertanggung jawab untuk memfilter informasi sensitif. Nama
kunci sql
peka huruf besar/kecil.
OpenLineage
Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Dataplex dan menampilkan peristiwa ini di Konsol Google Cloud. Untuk mengetahui detailnya, lihat Mengintegrasikan dengan OpenLineage.
Batasan fitur saat ini
- Semua informasi silsilah disimpan dalam sistem selama 30 hari saja.
- Informasi silsilah tetap ada setelah Anda menghapus sumber data terkaitnya. Artinya, jika menghapus tabel BigQuery dan entri Data Catalog-nya, Anda masih dapat membaca silsilah untuk tabel tersebut menggunakan API hingga 30 hari.
Mengakses silsilah data
Anda dapat mengakses fungsi silsilah data menggunakan:
- Halaman detail entri di UI Dataplex di Konsol Google Cloud. Lihat Melihat grafik silsilah.
- Halaman detail tabel di UI BigQuery di Konsol Google Cloud. Lihat Melihat grafik silsilah.
- Halaman Dataset dan Model Registry di UI Vertex AI di Konsol Google Cloud. Lihat Melihat grafik silsilah.
- Data Lineage API
Langkah selanjutnya
Pelajari cara melacak silsilah data untuk tugas kueri dan penyalinan tabel BigQuery.
Pelajari cara menggunakan silsilah data dengan sistem Google Cloud.
Untuk informasi administratif, lihat bagian IAM yang diperbarui, pertimbangan silsilah, dan logging audit silsilah data.