Menjelajahi silsilah data menggunakan metadata


Tutorial ini menunjukkan cara menggunakan Cloud Data Fusion untuk mempelajari silsilah data: asal data dan perpindahannya dari waktu ke waktu.

Lineage data Cloud Data Fusion

Anda dapat menggunakan silsilah data Cloud Data Fusion untuk melakukan hal berikut:

  • Mendeteksi akar masalah peristiwa data yang buruk.

  • Lakukan analisis dampak sebelum membuat perubahan data.

Sebaiknya gunakan integrasi garis keturunan aset di Dataplex. Untuk mengetahui informasi selengkapnya, lihat Melihat silsilah di Dataplex.

Anda juga dapat melihat garis keturunan di tingkat set data dan kolom di Cloud Data Fusion Studio menggunakan opsi Metadata, yang menampilkan garis keturunan untuk rentang waktu yang dipilih.

  • Silsilah tingkat set data menunjukkan hubungan antara set data dan pipeline.

  • Silsilah tingkat kolom menunjukkan operasi yang dilakukan pada kumpulan kolom dalam set data sumber untuk menghasilkan kumpulan kolom yang berbeda dalam set data target.

Mulai Cloud Data Fusion 6.9.2.4 dan seterusnya, jika Anda tidak melacak silsilah di Cloud Data Fusion, sebaiknya nonaktifkan emisi silsilah tingkat kolom di instance Anda menggunakan metode patch:

curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'

Ganti kode berikut:

  • PROJECT_ID: project ID Google Cloud
  • REGION: lokasi project Google Cloud
  • INSTANCE_ID: ID instance Cloud Data Fusion

Skenario Tutorial

Dalam tutorial ini, Anda akan menggunakan dua pipeline:

  • Pipeline Shipment Data Cleansing membaca data pengiriman mentah dari set data contoh kecil dan menerapkan transformasi untuk membersihkan data.

  • Pipeline Delayed Shipments USA kemudian membaca data pengiriman yang telah dibersihkan, menganalisisnya, dan menemukan pengiriman dalam Amerika Serikat yang tertunda lebih dari nilai minimum.

Pipeline tutorial ini menunjukkan skenario umum saat data mentah dibersihkan, lalu dikirim untuk pemrosesan downstream. Jejak data ini dari data mentah hingga data pengiriman yang dibersihkan hingga output analisis dapat dijelajahi menggunakan fitur silsilah Cloud Data Fusion.

Tujuan

  • Membuat silsilah dengan menjalankan contoh pipeline
  • Menjelajahi silsilah tingkat set data dan kolom
  • Pelajari cara meneruskan informasi handshake dari pipeline upstream ke pipeline downstream

Biaya

Dalam dokumen ini, Anda akan menggunakan komponen Google Cloud yang dapat ditagih berikut:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.

    Enable the APIs

  7. Buat instance Cloud Data Fusion.
  8. Klik link berikut untuk mendownload set data contoh kecil ini ke komputer lokal Anda:

Membuka UI Cloud Data Fusion

Saat menggunakan Cloud Data Fusion, Anda menggunakan Konsol Google Cloud dan UI Cloud Data Fusion terpisah. Di konsol Google Cloud, Anda dapat membuat project konsol Google Cloud, serta membuat dan menghapus instance Cloud Data Fusion. Di UI Cloud Data Fusion, Anda dapat menggunakan berbagai halaman, seperti Linimasa, untuk mengakses fitur Cloud Data Fusion.

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka halaman Instance

  2. Di kolom Actions untuk instance, klik link View Instance. UI Cloud Data Fusion akan terbuka di tab browser baru.

  3. Di panel Integrate, klik Studio untuk membuka halaman Studio Cloud Data Fusion.

Men-deploy dan menjalankan pipeline

  1. Impor Data Pengiriman mentah. Di halaman Studio, klik Import atau klik + > Pipeline > Import, lalu pilih dan impor pipeline Pembersihan Data Pengiriman yang Anda download di Sebelum memulai.

  2. Deploy pipeline. Klik Deploy di kanan atas halaman Studio. Setelah deployment, halaman Pipeline akan terbuka.

  3. Jalankan pipeline. Klik Jalankan di bagian tengah atas halaman Pipeline.

  4. Mengimpor, men-deploy, dan menjalankan data dan pipeline Pengiriman Tertunda. Setelah status Pembersihan Data Pengiriman menampilkan Berhasil, terapkan langkah-langkah sebelumnya ke data Pengiriman Tertunda Amerika Serikat yang Anda download di Sebelum Memulai. Kembali ke halaman Studio untuk mengimpor data, lalu deploy dan jalankan pipeline kedua ini dari halaman Pipeline. Setelah pipeline kedua berhasil diselesaikan, lanjutkan dengan langkah-langkah yang tersisa.

Menemukan set data

Anda harus menemukan set data sebelum menjelajahi garis keturunannya. Pilih Metadata dari panel navigasi sebelah kiri UI Cloud Data Fusion untuk membuka halaman Penelusuran metadata. Karena set data Pembersihan Data Pengiriman menentukan Cleaned-Shipments sebagai set data referensi, masukkan shipment di kotak Penelusuran. Hasil penelusuran menyertakan set data ini.

Menggunakan tag untuk menemukan set data

Penelusuran Metadata menemukan set data yang telah digunakan, diproses, atau dibuat oleh pipeline Cloud Data Fusion. Pipeline dijalankan di framework terstruktur yang menghasilkan dan mengumpulkan metadata teknis dan operasional. Metadata teknis mencakup nama set data, jenis, skema, kolom, waktu pembuatan, dan informasi pemrosesan. Informasi teknis ini digunakan oleh fitur penelusuran dan silsilah metadata Cloud Data Fusion.

Cloud Data Fusion juga mendukung anotasi set data dengan metadata bisnis, seperti tag dan properti nilai kunci, yang dapat digunakan sebagai kriteria penelusuran. Misalnya, untuk menambahkan dan menelusuri anotasi tag bisnis di set data Data Pengiriman Mentah:

  1. Klik tombol Properties dari node Raw Shipping Data di halaman Pipeline Pembersihan Data Pengiriman untuk membuka halaman Cloud Storage Properties.

  2. Klik Lihat Metadata untuk membuka halaman Penelusuran.

  3. Di bagian Tag Bisnis, klik +, lalu masukkan nama tag (karakter alfanumerik dan garis bawah diizinkan) dan tekan Enter.

Menjelajahi silsilah

Silsilah tingkat set data

Klik nama set data Cleaned-Shipments yang tercantum di halaman Penelusuran (dari Temukan set data), lalu klik tab Lineage. Grafik lineage menunjukkan bahwa set data ini dihasilkan oleh pipeline Pembersihan Data Pengiriman, yang telah menggunakan set data Raw_Shipping_Data.

Panah kiri dan kanan memungkinkan Anda menavigasi mundur dan maju melalui lineage set data sebelumnya atau berikutnya. Dalam contoh ini, grafik menampilkan garis keturunan lengkap untuk set data Cleaned-Shipments.

Linimasa tingkat kolom

Silsilah tingkat kolom Cloud Data Fusion menunjukkan hubungan antara kolom set data dan transformasi yang dilakukan pada kumpulan kolom untuk menghasilkan kumpulan kolom yang berbeda. Seperti linimasa tingkat set data, linimasa tingkat kolom dibatasi waktu, dan hasilnya berubah seiring waktu.

Melanjutkan dari langkah Linimasa tingkat set data, klik tombol Linimasa Tingkat Kolom di kanan atas grafik linimasa tingkat set data Kiriman yang Dibersihkan untuk menampilkan grafik linimasa tingkat kolomnya.

Grafik silsilah tingkat kolom menunjukkan koneksi antarkolom. Anda dapat memilih kolom untuk melihat garis keturunannya. Pilih Lihat > Sematkan kolom untuk melihat silsilah kolom tersebut saja.

Pilih Lihat > Lihat dampak untuk melakukan analisis dampak.

Link penyebab dan dampak menunjukkan transformasi yang dilakukan di kedua sisi kolom dalam format ledger yang dapat dibaca manusia. Informasi ini dapat menjadi penting untuk pelaporan dan tata kelola.

Pembersihan

Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.

Setelah menyelesaikan tutorial, bersihkan resource yang dibuat di Google Cloud sehingga resource tersebut tidak akan menggunakan kuota dan Anda tidak akan ditagih di masa mendatang. Bagian berikut menjelaskan cara menghapus atau menonaktifkan resource ini.

Menghapus set data tutorial

Tutorial ini membuat set data logistics_demo dengan beberapa tabel dalam project Anda.

Anda dapat menghapus set data dari UI Web BigQuery di konsol Google Cloud.

Menghapus instance Cloud Data Fusion

Ikuti petunjuk untuk menghapus instance Cloud Data Fusion.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah selanjutnya