Tentang silsilah data

Silsilah data adalah fitur Dataplex yang memungkinkan Anda melacak bagaimana data bergerak melalui sistem: dari mana data berasal, tempat data diteruskan, dan transformasi yang diterapkan pada data.

Mengapa Anda memerlukan lineage data?

Menangani set data besar sering kali melibatkan transformasi data menjadi entitas yang disesuaikan dengan kebutuhan project tertentu: file teks, tabel, laporan, dasbor, model.

Misalnya, bayangkan Anda memiliki toko online tempat Anda mencatat setiap pembelian dalam satu tabel SQL. Untuk memudahkan analis menggunakan data, Anda mulai menjalankan tugas yang mengekstrak informasi dari satu tabel ini dan menghasilkan tabel yang lebih kecil berdasarkan wilayah, merek, atau harga promo. Kemudian, analis Anda mulai melakukan hal yang sama: mereka melakukan transformasi lebih lanjut, menggabungkan tabel yang lebih kecil ini dengan sumber data lain untuk menghasilkan lebih banyak tabel.

Hal ini dapat menjadi tantangan besar bagi pemangku kepentingan Anda:

  • Konsumen data tidak dapat menggunakan alat layanan mandiri untuk memahami apakah data berasal dari sumber yang kredibel.
  • Engineer data tidak dapat menemukan akar masalah karena kurangnya cara yang andal untuk melacak semua transformasi data.
  • Engineer dan analis data tidak dapat sepenuhnya menilai kemungkinan dampaknya sebelum mengubah atau menghapus tabel.
  • Pengontrol data tidak dapat memahami cara data sensitif digunakan di seluruh organisasi dan memastikan kepatuhan terhadap persyaratan peraturan.

Lineage data adalah solusi yang memberikan cara praktis untuk melakukan hal berikut:

  • Pahami cara data diambil dan diubah dengan bantuan visualisasi grafik silsilah.
  • Melacak error yang terkait dengan entri dan operasi data kembali ke penyebab utama.
  • Mempermudah pengelolaan perubahan yang lebih baik melalui analisis dampak: hindari periode nonaktif atau error yang tidak terduga, pahami entri dependen, dan berkolaborasi dengan pemangku kepentingan yang relevan.

Model informasi silsilah data

Dalam bentuk dasarnya, silsilah adalah catatan data yang ditransformasikan dari sumber ke target. Data Lineage API mengumpulkan informasi tersebut dan mengaturnya ke dalam model data hierarkis menggunakan konsep proses, eksekusi, dan peristiwa.

Proses

Proses adalah definisi operasi transformasi data yang didukung untuk sistem tertentu. Dalam konteks garis keturunan BigQuery, process adalah salah satu jenis tugas yang didukung.

Jalankan

Operasi adalah eksekusi proses. Proses dapat dijalankan beberapa kali. Pengoperasian berisi detail seperti waktu mulai dan berakhir, status, atau atribut tambahan. Untuk mengetahui informasi selengkapnya, lihat referensi resource run.

Acara

Peristiwa mewakili titik waktu saat operasi transformasi data terjadi dan mengakibatkan data berpindah antara entitas sumber dan target.

Peristiwa berisi daftar link yang menentukan entri mana yang merupakan sumber dan mana yang merupakan target dalam peristiwa tertentu. Meskipun peristiwa digunakan untuk menghitung grafik visualisasi garis keturunan, peristiwa tersebut tidak ditampilkan secara langsung di konsol Google Cloud. Anda dapat membuat, membaca, dan menghapus (tetapi tidak memperbarui) data lineage menggunakan Data Lineage API.

Contoh

Pertimbangkan contoh berikut saat data disalin di antara tabel BigQuery:

Contoh mengekstrak data dari tabel yang disebut customer_year dan customers untuk
  mendapatkan tabel yang disebut top_customer.
Gambar 1. Contoh grafik yang menampilkan sumber data tabel.

Cara data berpindah antartabel dijelaskan oleh proses garis keturunan (diwakili pada grafik dengan ikon Ikon proses garis keturunan BigQuery.): dapat berupa kueri CREATE TABLE AS SELECT SQL atau pernyataan INSERT.

Setiap eksekusi pernyataan SQL tersebut akan membentuk eksekusi individual. Pengoperasian berisi peristiwa yang mencatat tabel mana yang digunakan sebagai sumber dan mana yang digunakan sebagai target. Dalam contoh ini, tabel customer_year dan customers adalah sumber untuk tabel top_customer target.

Grafik visualisasi silsilah

Grafik silsilah mewakili informasi yang dikumpulkan oleh Data Lineage API untuk entri Data Catalog tertentu. Root mengacu pada entri yang lineage-nya Anda lihat.

Contoh grafik menunjukkan data dari dua tabel yang ditransformasi, lalu digabungkan ke dalam tabel baru, dengan panel detail yang menampilkan kode SQL yang di-dock di bagian bawah.
Gambar 2. Contoh grafik visualisasi silsilah di konsol Google Cloud Dataplex.

Dataplex bekerja dengan Data Lineage API untuk mengidentifikasi entri yang namanya sepenuhnya memenuhi syarat dan cocok dengan entitas yang dikenali oleh urutan data. Untuk entri Dataplex yang cocok, Anda dapat mengakses tab Lini Masa di halaman detailnya dan melihat grafik.

Grafik garis keturunan menampilkan dua jenis elemen:

  • Tombol persegi panjang yang lebar dan mewakili entity yang terlibat dalam pembuatan informasi silsilah sebagai sumber atau target peristiwa silsilah.

  • Tombol persegi yang lebih kecil yang mewakili proses yang bertanggung jawab untuk membuat atau memperbarui entitas sumber atau target. Tombol proses menggunakan ikon khusus untuk sistem sumber yang melaporkannya ke Data Lineage API. Misalnya, tugas BigQuery menggunakan ikon Ikon proses garis keturunan BigQuery..

Tampilan daftar garis keturunan

Tampilan daftar garis keturunan menampilkan informasi garis keturunan mendetail untuk entitas dalam satu tabel.

Dibandingkan dengan grafik visualisasi silsilah, yang lebih baik untuk melihat grafik silsilah yang relatif kecil, tampilan daftar silsilah memungkinkan Anda melihat informasi silsilah untuk entity dengan banyak koneksi.

Gambar berikut menunjukkan contoh tampilan daftar silsilah di konsol Google Cloud. Daftar berikut menjelaskan gambar secara lebih mendetail.

Contoh tampilan daftar silsilah di konsol Google Cloud.
Gambar 3. Contoh tampilan daftar silsilah di konsol Google Cloud.
  • Setiap baris dalam tabel mewakili satu link garis keturunan antara dua entri. Dalam grafik, nama ini digambarkan sebagai link garis keturunan antara dua entri, termasuk node proses di antaranya. Misalnya, Source dan Target adalah node aset, dengan kemungkinan beberapa node proses di antaranya.

  • Opsi Arah menentukan bagian alur data yang akan ditampilkan dalam daftar, sehubungan dengan aset root:

    • Upstream: menampilkan informasi silsilah untuk entri yang merupakan sumber data untuk entri yang dipilih. Pada grafik garis keturunan, entri ini adalah entri yang muncul di sebelah kiri entri yang dipilih.

    • Downstream: menampilkan informasi garis keturunan untuk entri yang menggunakan atau berasal dari entri yang dipilih. Pada grafik garis keturunan, entri ini adalah entri yang muncul di sebelah kanan entri yang dipilih.

  • Opsi Rentang Waktu memungkinkan Anda memfilter informasi garis keturunan berdasarkan waktu terjadinya garis keturunan:

    • Start Time: menampilkan garis keturunan yang terjadi setelah waktu mulai.

    • Waktu Akhir: menampilkan garis keturunan yang terjadi sebelum waktu akhir.

  • Kedalaman mengacu pada seberapa jauh sumber atau resource turunan dihapus dari resource root. Tampilan daftar menampilkan hingga 1.000 link garis keturunan, dengan kedalaman maksimum dari root sebagai 10 link garis keturunan. Jika ada garis keturunan di luar rentang ini, Anda akan diberi tahu. Anda dapat melihat garis keturunan di luar rentang ini dengan memilih nama entitas lain dalam tampilan daftar.

  • Panel Detail menampilkan informasi untuk sumber link, target link, dan untuk semua proses yang membuat link ini.

  • Anda dapat menyesuaikan kolom yang ditampilkan dalam tabel dan memfilter hasilnya. Anda juga dapat mengekspor hasilnya ke file CSV.

Pelacakan silsilah data otomatis

Saat Anda mengaktifkan Data Lineage API, sistem Google Cloud yang mendukung silsilah data akan mulai melaporkan pergerakan datanya. Setiap sistem terintegrasi dapat mengirimkan informasi silsilah untuk berbagai rentang sumber data. Untuk informasi selengkapnya tentang setiap produk yang didukung, lihat bagian berikut.

BigQuery

Mengaktifkan silsilah data di project BigQuery Anda akan menyebabkan Dataplex mencatat informasi silsilah secara otomatis untuk:

Tugas penyalinan, kueri, dan pemuatan BigQuery direpresentasikan sebagai proses. Untuk melihat detail proses, di grafik visualisasi garis keturunan, klik . Setiap proses berisi job_id BigQuery dalam daftar attributes untuk tugas BigQuery terbaru.

Layanan lainnya

Silsilah data mendukung integrasi dengan layanan Google Cloud berikut:

Linimasa data untuk sumber data kustom

Anda dapat menggunakan Data Lineage API di Dataplex untuk mencatat informasi silsilah secara manual untuk sumber data apa pun yang tidak didukung oleh sistem terintegrasi.

Dataplex dapat membuat grafik visualisasi untuk lineage yang dicatat secara manual jika Anda menggunakan fullyQualifiedNames yang cocok dengan nama yang sepenuhnya memenuhi syarat dari entri Data Catalog yang ada. Jika Anda ingin mencatat lineage untuk sumber data kustom, buat entri Katalog Data kustom terlebih dahulu.

Setiap proses untuk sumber data kustom dapat berisi kunci sql dalam daftar atribut. Nilai kunci tersebut akan digunakan untuk merender sorotan kode di panel detail grafik garis keturunan data. Pernyataan SQL akan ditampilkan seperti yang disediakan. Pengguna bertanggung jawab untuk memfilter informasi sensitif. Nama kunci sql peka huruf besar/kecil.

OpenLineage

Jika sudah menggunakan OpenLineage untuk mengumpulkan informasi silsilah dari sumber data lain, Anda dapat mengimpor peristiwa OpenLineage ke Dataplex dan menampilkan peristiwa ini di konsol Google Cloud. Untuk mengetahui detailnya, lihat Mengintegrasikan dengan OpenLineage.

Batasan

  • Semua informasi silsilah disimpan di sistem selama hanya 30 hari.
  • Informasi garis keturunan tetap ada setelah Anda menghapus sumber data terkait. Artinya, jika Anda menghapus tabel BigQuery dan entri Katalog Data-nya, Anda masih dapat membaca silsilah untuk tabel tersebut menggunakan API hingga 30 hari.

Mengakses silsilah data

Anda dapat mengakses fungsi silsilah data menggunakan hal berikut:

Harga

  • Dataplex menggunakan SKU pemrosesan premium untuk menagih urutan data. Untuk informasi selengkapnya, lihat Harga.

  • Untuk memisahkan tagihan lineage data dari tagihan lainnya di SKU pemrosesan premium Dataplex, di laporan Penagihan Cloud, gunakan label goog-dataplex-workload-type dengan nilai LINEAGE.

  • Jika Anda memanggil Data Lineage API Origin sourceType dengan nilai selain CUSTOM, hal ini akan menyebabkan biaya tambahan.

Langkah selanjutnya