Mempelajari silsilah data menggunakan metadata


Tutorial ini menunjukkan cara menggunakan Cloud Data Fusion untuk mempelajari silsilah data: asal data dan perpindahannya dari waktu ke waktu.

Untuk mengetahui informasi tentang integrasi silsilah aset Data Catalog, lihat Melihat silsilah di Dataplex.

Silsilah data Cloud Data Fusion

Anda dapat menggunakan silsilah data Cloud Data Fusion untuk melakukan hal berikut:

  • Mendeteksi akar penyebab peristiwa data yang buruk.

  • Lakukan analisis dampak sebelum membuat perubahan data.

Cloud Data Fusion menyediakan silsilah di tingkat set data dan tingkat kolom, serta terikat waktu untuk menampilkan silsilah dari waktu ke waktu.

  • Silsilah tingkat set data menunjukkan hubungan antara set data dan pipeline dalam interval waktu yang dipilih.

  • Silsilah tingkat kolom menunjukkan operasi yang dilakukan pada kumpulan kolom dalam set data sumber untuk menghasilkan kumpulan kolom yang berbeda dalam set data target.

Skenario Tutorial

Dalam tutorial ini, Anda bekerja dengan dua pipeline:

  • Pipeline Shipment Data Cleansing membaca data pengiriman mentah dari sampel kecil set data dan menerapkan transformasi untuk membersihkan data.

  • Pipeline Delayed Shipments USA kemudian membaca data pengiriman yang telah dibersihkan, menganalisisnya, dan menemukan pengiriman di AS yang tertunda lebih dari nilai minimum.

Pipeline tutorial ini menunjukkan skenario umum ketika data mentah dibersihkan lalu dikirim untuk pemrosesan downstream. Jejak data dari data mentah hingga data pengiriman yang dibersihkan ke output analisis dapat dijelajahi menggunakan fitur silsilah Cloud Data Fusion.

Tujuan

  • Buat silsilah dengan menjalankan pipeline sampel
  • Pelajari set data dan silsilah tingkat lapangan
  • Pelajari cara meneruskan informasi handshake dari pipeline upstream ke pipeline downstream

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  5. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. Membuat instance Cloud Data Fusion.
  8. Klik link berikut untuk mendownload sampel set data kecil ini ke mesin lokal Anda:

Buka UI Cloud Data Fusion

Saat menggunakan Cloud Data Fusion, Anda menggunakan Konsol Google Cloud dan UI Cloud Data Fusion yang terpisah. Di konsol Google Cloud, Anda dapat membuat project konsol Google Cloud, serta membuat dan menghapus instance Cloud Data Fusion. Di UI Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Lineage, untuk mengakses fitur Cloud Data Fusion.

  1. Di konsol Google Cloud, buka halaman Instances.

    Buka halaman Instances

  2. Di kolom Tindakan untuk instance, klik link Lihat Instance. UI Cloud Data Fusion akan terbuka di tab browser baru.

  3. Di panel Integrate, klik Studio untuk membuka halaman Studio Cloud Data Fusion.

Men-deploy dan menjalankan pipeline

  1. Impor Data Pengiriman mentah. Di halaman Studio, klik Import atau klik + > Pipeline > Import, lalu pilih dan impor pipeline Pengiriman Data Pembersihan yang Anda download di Sebelum memulai.

  2. Deploy pipeline. Klik Deploy di kanan atas halaman Studio. Setelah deployment, halaman Pipeline akan terbuka.

  3. Jalankan pipeline. Klik Run di bagian tengah atas halaman Pipeline.

  4. Mengimpor, men-deploy, dan menjalankan data serta pipeline Pengiriman Tertunda. Setelah status Pembersihan Data Pengiriman menampilkan Succeeded, terapkan langkah-langkah sebelumnya ke data Tertunda Pengiriman USA yang Anda download di Sebelum Anda Mulai. Kembali ke halaman Studio untuk mengimpor data, lalu deploy dan jalankan pipeline kedua ini dari halaman Pipeline. Setelah pipeline kedua berhasil, lanjutkan ke langkah selanjutnya.

Menemukan set data

Anda harus menemukan sebuah {i>dataset<i} sebelum mengeksplorasi silsilahnya. Pilih Metadata dari panel navigasi kiri UI Cloud Data Fusion untuk membuka halaman Search metadata. Karena set data Pembersihan Data Pengiriman menentukan Cleaned-Shipments sebagai set data referensi, masukkan shipment di kotak Penelusuran. Hasil penelusuran menyertakan {i>dataset<i} ini.

Menggunakan tag untuk menemukan set data

Penelusuran Metadata menemukan set data yang telah digunakan, diproses, atau dihasilkan oleh pipeline Cloud Data Fusion. Pipeline dijalankan berdasarkan framework terstruktur yang menghasilkan dan mengumpulkan metadata teknis dan operasional. Metadata teknis mencakup nama set data, jenis, skema, kolom, waktu pembuatan, dan informasi pemrosesan. Informasi teknis ini digunakan oleh fitur silsilah dan penelusuran metadata Cloud Data Fusion.

Cloud Data Fusion juga mendukung anotasi set data dengan metadata bisnis, seperti tag dan properti nilai kunci, yang dapat digunakan sebagai kriteria penelusuran. Misalnya, untuk menambahkan dan menelusuri anotasi tag bisnis di set data Data Pengiriman Mentah:

  1. Klik tombol Properties pada node Raw Shipping Data di halaman Shipment Data Cleansing Pipeline untuk membuka halaman Cloud Storage Properties.

  2. Klik Lihat Metadata untuk membuka halaman Penelusuran.

  3. Di bagian Tag Bisnis, klik + lalu sisipkan nama tag (karakter alfanumerik dan garis bawah diizinkan), lalu tekan Enter.

Pelajari silsilah

Silsilah tingkat set data

Klik nama set data Cleaned-Shipments yang tercantum di halaman Search (dari Discover datasets), lalu klik tab Lineage. Grafik silsilah menunjukkan bahwa set data ini dihasilkan oleh pipeline Shipments-Data-Cleansing, yang telah menggunakan set data Raw_Shipping_Data.

Panah kiri dan kanan memungkinkan Anda menavigasi mundur dan maju dalam silsilah set data sebelumnya atau berikutnya. Dalam contoh ini, grafik menampilkan silsilah lengkap untuk set data Cleaned-Shipments.

Silsilah tingkat lapangan

Silsilah tingkat kolom Cloud Data Fusion menunjukkan hubungan antara kolom set data dan transformasi yang dilakukan pada kumpulan kolom untuk menghasilkan kumpulan kolom yang berbeda. Seperti silsilah tingkat {i>dataset<i}, silsilah tingkat bidang terikat oleh waktu, dan hasilnya berubah seiring waktu.

Melanjutkan dari langkah Garis turunan tingkat set data, klik tombol Lineage Level Kolom di kanan atas grafik silsilah tingkat set data Cleaned Shipments untuk menampilkan grafik silsilah tingkat kolom.

Grafik silsilah tingkat kolom menunjukkan hubungan antarkolom. Anda dapat memilih kolom untuk melihat silsilahnya. Pilih Lihat > Sematkan kolom untuk melihat garis turunan kolom tersebut saja.

Pilih Lihat > Lihat dampak untuk melakukan analisis dampak.

Link sebab dan akibat menunjukkan transformasi yang dilakukan di kedua sisi kolom dalam format buku besar yang dapat dibaca manusia. Informasi ini sangat penting untuk pelaporan dan tata kelola.

Pembersihan

Agar tidak dikenakan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource-nya.

Setelah menyelesaikan tutorial, bersihkan resource yang Anda buat di Google Cloud agar tidak menghabiskan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Hapus set data tutorial

Tutorial ini membuat set data logistics_demo dengan beberapa tabel di project Anda.

Anda dapat menghapus set data dari UI Web BigQuery di Konsol Google Cloud.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Langkah selanjutnya