Melacak silsilah data untuk tabel BigQuery

Garis keturunan data memungkinkan Anda melacak perpindahan data melalui sistem: dari mana data berasal, tempat data diteruskan, dan transformasi yang diterapkan pada data.

Pelajari cara mulai melacak silsilah data untuk tugas penyalinan dan kueri BigQuery:

  1. Salin dua tabel dari set data new_york_taxi_trips yang tersedia secara publik.

  2. Gabungkan total jumlah perjalanan dengan taksi dari kedua tabel ke dalam tabel baru.

  3. Melihat grafik visualisasi silsilah untuk ketiga operasi.

Sebelum memulai

Siapkan project Anda:

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API Data Catalog, BigQuery, and data lineage.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  7. Aktifkan API Data Catalog, BigQuery, and data lineage.

    Mengaktifkan API

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Tambahkan set data publik ke project Anda

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, klik Add.

  3. Di panel Add, cari Public datasets, lalu pilih hasil Public datasets.

  4. Di panel Marketplace, telusuri NYC TLC Trips lalu klik hasil Perjalanan NYC TLC.

  5. Klik View Dataset.

Langkah ini akan menambahkan set data new_york_taxi_trips ke project Anda. Panel detail menampilkan Dataset info, termasuk informasi seperti Dataset ID, Data location, dan tanggal Last modified.

Membuat set data di project Anda

  1. Di panel Explorer, pilih project tempat Anda ingin membuat set data.

  2. Klik ikon Tindakan, lalu klik Buat set data.

  3. Di halaman Create dataset, di kolom Dataset ID, masukkan: data_lineage_demo. Biarkan kolom lain tetap pada nilai defaultnya.

  4. Klik Buat set data.

  5. Di panel Explorer, klik data_lineage_demo yang baru ditambahkan.

Panel detail menampilkan Dataset info-nya.

Salin dua tabel yang dapat diakses secara publik ke set data Anda

  1. Buka editor kueri: Di panel detail, di samping tab bernama data_lineage_demo, klik (Compose new query). Langkah ini akan membuat tab bernama Untitled.

  2. Di editor kueri, salin tabel pertama dengan memasukkan kueri berikut. Ganti PROJECT_ID dengan ID project Anda.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Klik Run. Langkah ini akan membuat tabel pertama, yang disebut nyc_green_trips_2021.

  4. Di panel Query results, klik Go to table. Langkah ini menampilkan isi tabel pertama.

  5. Di editor kueri, salin tabel kedua dengan mengganti kueri sebelumnya dengan kueri berikut. Ganti PROJECT_ID dengan ID project Anda.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Klik Run. Langkah ini akan membuat tabel kedua, yang disebut nyc_green_trips_2022.

  7. Di panel Query results, klik Go to table. Langkah ini menampilkan isi tabel kedua.

Menggabungkan data ke dalam tabel baru

  1. Di editor kueri, masukkan kueri berikut. Ganti PROJECT_ID dengan ID project Anda.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Klik Run. Langkah ini akan membuat tabel gabungan, yang disebut total_green_trips_22_21.

  3. Di panel Query results, klik Go to table. Langkah ini menampilkan tabel gabungan.

Melihat grafik silsilah di Dataplex

  1. Buka halaman Dataplex Search.

    Buka penelusuran Dataplex

  2. Di kotak Search, masukkan total_green_trips_22_21, lalu klik Search.

  3. Dari daftar hasil, klik total_green_trips_22_21. Langkah ini akan menampilkan tab Details tabel BigQuery.

  4. Klik tab Silsilah.

Screenshot tabel total_green_trips_22_21 dengan panel detail yang dipasang ke bagian bawah.
Gambar 1. Silsilah data dengan detail node

Pada grafik silsilah, setiap node persegi panjang mewakili tabel, baik tabel asli, salinan, atau gabungan. Anda dapat melakukan hal berikut:

  • Menampilkan atau menyembunyikan asal tabel, dengan mengklik + (Luaskan) atau - (Ciutkan).

  • Tampilkan informasi tabel dengan mengklik node. Langkah ini akan menampilkan panel Details node.

  • Tampilkan informasi proses, dengan mengklik ikon proses ikon proses silsilah. Langkah ini menampilkan panel Details proses yang menampilkan tugas yang mengubah tabel sumber ke tabel target.

Screenshot tabel nyc_green_trips_2021 perantara dengan panel detail yang dipasang ke bagian bawah.
Gambar 2. Silsilah data dengan detail proses

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. Di konsol Google Cloud, buka halaman Manage resource.

    Buka Manage resource

  2. Pada daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada dialog, ketik project ID, lalu klik Shut down untuk menghapus project.

Menghapus set data

  1. Buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, cari set data data_lineage_demo yang Anda buat.

  3. Klik kanan set data, lalu pilih Delete.

  4. Konfirmasi tindakan penghapusan Anda.

Langkah selanjutnya