Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak bagaimana data bergerak melalui sistem: dari mana data berasal, tempat data diteruskan, dan transformasi yang diterapkan pada data.
Mengapa Anda memerlukan lineage data?
Menangani set data besar sering kali melibatkan transformasi data menjadi entitas yang disesuaikan dengan kebutuhan project tertentu: file teks, tabel, laporan, dasbor, model.
Misalnya, bayangkan Anda memiliki toko online tempat Anda mencatat setiap pembelian dalam satu tabel SQL. Untuk memudahkan analis menggunakan data, Anda mulai menjalankan tugas yang mengekstrak informasi dari satu tabel ini dan menghasilkan tabel yang lebih kecil berdasarkan wilayah, merek, atau harga promo. Kemudian, analis Anda mulai melakukan hal yang sama: mereka melakukan transformasi lebih lanjut, menggabungkan tabel yang lebih kecil ini dengan sumber data lain untuk menghasilkan lebih banyak tabel.
Hal ini dapat menjadi tantangan besar bagi pemangku kepentingan Anda:
- Konsumen data tidak dapat menggunakan alat layanan mandiri untuk memahami apakah data berasal dari sumber yang kredibel.
- Engineer data tidak dapat menemukan akar masalah karena kurangnya cara yang andal untuk melacak semua transformasi data.
- Engineer dan analis data tidak dapat sepenuhnya menilai kemungkinan dampaknya sebelum mengubah atau menghapus tabel.
- Pengontrol data tidak dapat memahami cara data sensitif digunakan di seluruh organisasi dan memastikan kepatuhan terhadap persyaratan peraturan.
Lineage data adalah solusi yang memberikan cara praktis untuk melakukan hal berikut:
- Pahami cara data diambil dan diubah dengan bantuan visualisasi grafik silsilah.
- Melacak error yang terkait dengan entri dan operasi data kembali ke penyebab utama.
- Mempermudah pengelolaan perubahan yang lebih baik melalui analisis dampak: hindari periode nonaktif atau error yang tidak terduga, pahami entri dependen, dan berkolaborasi dengan pemangku kepentingan yang relevan.
Model informasi silsilah data
Dalam bentuk dasarnya, silsilah adalah catatan data yang ditransformasikan dari sumber ke target. Data Lineage API mengumpulkan informasi tersebut dan mengaturnya ke dalam model data hierarkis menggunakan konsep proses, eksekusi, dan peristiwa.
Proses
Proses adalah definisi operasi transformasi data yang didukung untuk
sistem tertentu. Dalam konteks garis keturunan BigQuery,
process
adalah salah satu jenis tugas yang didukung.
Jalankan
Operasi adalah eksekusi proses. Proses dapat dijalankan beberapa kali.
Pengoperasian berisi detail seperti waktu mulai dan berakhir, status, atau atribut tambahan.
Untuk mengetahui informasi selengkapnya, lihat
referensi resource run
.
Acara
Peristiwa mewakili titik waktu saat operasi transformasi data terjadi dan mengakibatkan data berpindah antara entitas sumber dan target.
Peristiwa berisi daftar link yang menentukan entri mana yang merupakan sumber dan mana yang merupakan target dalam peristiwa tertentu. Meskipun peristiwa digunakan untuk menghitung grafik visualisasi garis keturunan, peristiwa tersebut tidak ditampilkan secara langsung di konsol Google Cloud. Anda dapat membuat, membaca, dan menghapus (tetapi tidak memperbarui) data lineage menggunakan Data Lineage API.
Contoh
Pertimbangkan contoh berikut saat data disalin di antara tabel BigQuery:
Cara data berpindah antartabel dijelaskan oleh proses garis keturunan
(diwakili pada grafik dengan
ikon
): dapat berupa kueri CREATE TABLE AS SELECT
SQL atau pernyataan INSERT
.
Setiap eksekusi pernyataan SQL tersebut akan membentuk eksekusi individual.
Pengoperasian berisi peristiwa yang mencatat tabel mana yang digunakan sebagai sumber dan
mana yang digunakan sebagai target. Dalam contoh ini, tabel
customer_year
dan customers
adalah sumber
untuk tabel top_customer
target.
Grafik visualisasi silsilah
Grafik silsilah mewakili informasi yang dikumpulkan oleh Data Lineage API untuk entri Data Catalog tertentu. Root mengacu pada entri yang lineage-nya Anda lihat.
Dataplex bekerja dengan Data Lineage API untuk mengidentifikasi entri yang namanya sepenuhnya memenuhi syarat dan cocok dengan entitas yang dikenali oleh urutan data. Untuk entri Dataplex yang cocok, Anda dapat mengakses tab Lini Masa di halaman detailnya dan melihat grafik.
Grafik garis keturunan menampilkan dua jenis elemen:
Tombol persegi panjang yang lebar dan mewakili entity yang terlibat dalam pembuatan informasi silsilah sebagai sumber atau target peristiwa silsilah.
Tombol persegi yang lebih kecil yang mewakili proses yang bertanggung jawab untuk membuat atau memperbarui entitas sumber atau target. Tombol proses menggunakan ikon khusus untuk sistem sumber yang melaporkannya ke Data Lineage API. Misalnya, tugas BigQuery menggunakan ikon .
Tampilan daftar garis keturunan
Tampilan daftar garis keturunan menampilkan informasi garis keturunan mendetail untuk entitas dalam satu tabel.
Dibandingkan dengan grafik visualisasi silsilah, yang lebih baik untuk melihat grafik silsilah yang relatif kecil, tampilan daftar silsilah memungkinkan Anda melihat informasi silsilah untuk entity dengan banyak koneksi.
Gambar berikut menunjukkan contoh tampilan daftar silsilah di konsol Google Cloud. Daftar berikut menjelaskan gambar secara lebih mendetail.
Setiap baris dalam tabel mewakili satu link garis keturunan antara dua entri. Dalam grafik, nama ini digambarkan sebagai link garis keturunan antara dua entri, termasuk node proses di antaranya. Misalnya,
Source
danTarget
adalah node aset, dengan kemungkinan beberapa node proses di antaranya.Opsi Arah menentukan bagian alur data yang akan ditampilkan dalam daftar, sehubungan dengan aset root:
Upstream: menampilkan informasi silsilah untuk entri yang merupakan sumber data untuk entri yang dipilih. Pada grafik garis keturunan, entri ini adalah entri yang muncul di sebelah kiri entri yang dipilih.
Downstream: menampilkan informasi garis keturunan untuk entri yang menggunakan atau berasal dari entri yang dipilih. Pada grafik garis keturunan, entri ini adalah entri yang muncul di sebelah kanan entri yang dipilih.
Opsi Rentang Waktu memungkinkan Anda memfilter informasi garis keturunan berdasarkan waktu terjadinya garis keturunan:
Start Time: menampilkan garis keturunan yang terjadi setelah waktu mulai.
Waktu Akhir: menampilkan garis keturunan yang terjadi sebelum waktu akhir.
Kedalaman mengacu pada seberapa jauh sumber atau resource turunan dihapus dari resource root. Tampilan daftar menampilkan hingga 1.000 link garis keturunan, dengan kedalaman maksimum dari root sebagai 10 link garis keturunan. Jika ada garis keturunan di luar rentang ini, Anda akan diberi tahu. Anda dapat melihat garis keturunan di luar rentang ini dengan memilih nama entitas lain dalam tampilan daftar.
Panel Detail menampilkan informasi untuk sumber link, target link, dan untuk semua proses yang membuat link ini.
Anda dapat menyesuaikan kolom yang ditampilkan dalam tabel dan memfilter hasilnya. Anda juga dapat mengekspor hasilnya ke file CSV.
Pelacakan silsilah data otomatis
Saat Anda mengaktifkan Data Lineage API, sistem Google Cloud yang mendukung silsilah data akan mulai melaporkan pergerakan datanya. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk berbagai rentang sumber data. Untuk informasi selengkapnya tentang setiap produk yang didukung, lihat bagian berikut.
BigQuery
Mengaktifkan silsilah data di project BigQuery Anda akan menyebabkan Dataplex mencatat informasi silsilah secara otomatis untuk:
Tabel baru sebagai hasil dari tugas BigQuery berikut:
- Tugas penyalinan
- Memuat tugas yang menggunakan URI Cloud Storage untuk memuat data dalam format apa pun yang diizinkan dari Cloud Storage*
- Tugas kueri yang menggunakan bahasa definisi data (DDL) berikut di SQL Standar Google:
Tabel yang ada sebagai hasil dari penggunaan pernyataan bahasa pengolahan data (DML) berikut di Google Standard SQL:
- SELECT sehubungan dengan salah satu jenis tabel yang tercantum:
- INSERT SELECT
- MERGE
- UPDATE
- DELETE
Tugas penyalinan, kueri, dan pemuatan BigQuery direpresentasikan sebagai proses. Untuk melihat detail proses, di grafik visualisasi garis keturunan, klik . Setiap proses berisi job_id BigQuery dalam daftar attributes untuk tugas BigQuery terbaru.
Layanan lainnya
Silsilah data mendukung integrasi dengan layanan Google Cloud berikut:
Linimasa data untuk sumber data kustom
Anda dapat menggunakan Data Lineage API di Dataplex untuk mencatat informasi silsilah secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.
Dataplex dapat membuat grafik visualisasi untuk lineage yang dicatat secara manual jika Anda menggunakan fullyQualifiedNames
yang cocok dengan nama yang sepenuhnya memenuhi syarat dari entri Data Catalog yang ada. Jika Anda ingin mencatat
lineage untuk sumber data kustom, buat
entri Katalog Data kustom terlebih dahulu.
Setiap proses untuk sumber data kustom dapat berisi kunci sql
dalam daftar
atribut. Nilai kunci tersebut akan digunakan untuk merender sorotan kode di panel detail
grafik garis keturunan data. Pernyataan SQL akan ditampilkan seperti yang
disediakan. Pengguna bertanggung jawab untuk memfilter informasi sensitif. Nama kunci
sql
peka huruf besar/kecil.
OpenLineage
Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Dataplex dan menampilkan peristiwa ini di konsol Google Cloud. Untuk mengetahui detailnya, lihat Mengintegrasikan dengan OpenLineage.
Batasan
- Semua informasi silsilah disimpan di sistem selama hanya 30 hari.
- Informasi garis keturunan tetap ada setelah Anda menghapus sumber data terkait. Artinya, jika Anda menghapus tabel BigQuery dan entri Katalog Data-nya, Anda masih dapat membaca silsilah untuk tabel tersebut menggunakan API hingga 30 hari.
Mengakses silsilah data
Anda dapat mengakses fungsi silsilah data menggunakan hal berikut:
- Halaman detail entri di antarmuka web Dataplex di konsol Google Cloud. Lihat Melihat grafik silsilah.
- Halaman detail tabel di antarmuka web BigQuery di konsol Google Cloud. Lihat Melihat grafik silsilah.
- Halaman Set data dan Model Registry di antarmuka web Vertex AI di konsol Google Cloud. Lihat Melihat grafik silsilah.
- Data Lineage API
Harga
Dataplex menggunakan SKU pemrosesan premium untuk menagih urutan data. Untuk informasi selengkapnya, lihat Harga.
Untuk memisahkan tagihan lineage data dari tagihan lainnya di SKU pemrosesan premium Dataplex, di laporan Penagihan Cloud, gunakan label
goog-dataplex-workload-type
dengan nilaiLINEAGE
.Jika Anda memanggil Data Lineage API
Origin
sourceType
dengan nilai selainCUSTOM
, hal ini akan menyebabkan biaya tambahan.
Langkah selanjutnya
Pelajari cara melacak silsilah data untuk tugas kueri dan penyalinan tabel BigQuery.
Pelajari cara menggunakan garis keturunan data dengan sistem Google Cloud.
Untuk informasi administratif, lihat bagian IAM yang diperbarui, pertimbangan garis keturunan, dan logging audit garis keturunan data.