Melacak silsilah data untuk tabel BigQuery

Urutan data memungkinkan Anda melacak bagaimana data berpindah melalui sistem: tempat asal data, tempat data diteruskan, dan transformasi yang diterapkan pada data.

Pelajari cara memulai pelacakan silsilah data untuk tugas kueri dan penyalinan BigQuery:

  1. Salin dua tabel dari set data new_york_taxi_trips yang tersedia secara publik.

  2. Gabungkan jumlah total perjalanan taksi dari kedua tabel ke dalam tabel baru.

  3. Lihat grafik visualisasi silsilah untuk ketiga operasi tersebut.

Sebelum memulai

Siapkan project Anda:

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Data Catalog, BigQuery, and data lineage APIs.

    Enable the APIs

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan guna melihat grafik visualisasi silsilah, minta administrator untuk memberi Anda peran IAM berikut:

Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.

Menambahkan set data publik ke project Anda

  1. Di konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Penjelajah, klik Tambahkan.

  3. Di panel Tambahkan, telusuri Public datasets, lalu pilih hasil Set data publik.

  4. Di panel Marketplace, telusuri NYC TLC Trips, lalu klik hasil NYC TLC Trips.

  5. Klik View Dataset.

Tindakan ini akan menambahkan project set data publik sebagai referensi yang dapat Anda lihat di panel Penjelajah. Panel detail menampilkan Dataset info, termasuk informasi seperti Dataset ID, Data location, dan tanggal Last modified.

Membuat set data di project Anda

  1. Di panel Explorer, pilih project tempat Anda ingin membuat set data.

  2. Klik Actions, lalu klik Create set data.

  3. Di halaman Create dataset, di kolom Dataset ID, masukkan: data_lineage_demo. Biarkan kolom lain tetap pada nilai defaultnya.

  4. Klik Create dataset.

  5. Di panel Penjelajah, klik data_lineage_demo yang baru ditambahkan.

Panel detail menampilkan Dataset info.

Menyalin dua tabel yang dapat diakses secara publik ke set data Anda

  1. Buka editor kueri: Di panel detail, di samping tab yang disebut data_lineage_demo, klik (Compose new query). Langkah ini akan membuat tab bernama Untitled.

  2. Di editor kueri, salin tabel pertama dengan memasukkan kueri berikut. Ganti PROJECT_ID dengan ID project Anda.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2021`
    
  3. Klik Run. Langkah ini akan membuat tabel pertama, yang disebut nyc_green_trips_2021.

  4. Di panel Query results, klik Go to table. Langkah ini menampilkan konten tabel pertama.

  5. Di editor kueri, salin tabel kedua dengan mengganti kueri sebelumnya dengan kueri berikut. Ganti PROJECT_ID dengan ID project Anda.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
    COPY `bigquery-public-data.new_york_taxi_trips.tlc_green_trips_2022`
    
  6. Klik Run. Langkah ini akan membuat tabel kedua, yang disebut nyc_green_trips_2022.

  7. Di panel Query results, klik Go to table. Langkah ini menampilkan konten tabel kedua.

Menggabungkan data ke dalam tabel baru

  1. Di editor kueri, masukkan kueri berikut. Ganti PROJECT_ID dengan ID project Anda.

    CREATE TABLE `PROJECT_ID.data_lineage_demo.total_green_trips_22_21`
    AS SELECT vendor_id, COUNT(*) AS number_of_trips
    FROM (
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2022`
         UNION ALL
         SELECT vendor_id FROM `PROJECT_ID.data_lineage_demo.nyc_green_trips_2021`
    )
    GROUP BY vendor_id
    
  2. Klik Run. Langkah ini akan membuat tabel gabungan, yang disebut total_green_trips_22_21.

  3. Di panel Query results, klik Go to table. Langkah ini menampilkan tabel gabungan.

Melihat grafik silsilah di Dataplex

  1. Di konsol Google Cloud, buka halaman Penelusuran Dataplex.

    Buka Penelusuran Dataplex

  2. Untuk Pilih platform penelusuran, pilih Data Catalog sebagai mode penelusuran.

  3. Di kotak Telusuri, masukkan total_green_trips_22_21, lalu klik Telusuri.

  4. Dari daftar hasil, klik total_green_trips_22_21. Langkah ini akan menampilkan tab Details tabel BigQuery.

  5. Klik tab Silsilah.

Tabel total_green_trips_22_21 dengan panel detail yang di-dock ke bagian bawah.
Gambar 1. Silsilah data dengan detail node

Dalam grafik silsilah, setiap node persegi panjang mewakili tabel, baik tabel asli, disalin, atau digabungkan. Anda dapat melakukan hal berikut:

  • Untuk menampilkan atau menyembunyikan asal tabel, klik + (Luaskan) atau - (Ciutkan).

  • Untuk menampilkan informasi tabel, klik node. Langkah ini akan menampilkan panel Detail node.

  • Untuk menampilkan informasi proses, klik melihat detail proses lineage. Langkah ini menampilkan panel Details proses yang menampilkan tugas yang mengubah tabel sumber menjadi tabel target.

Tabel perantara nyc_green_trips_2021 dengan panel detail yang di-dock ke bagian bawah.
Gambar 2. Silsilah data dengan detail proses

Pembersihan

Agar tidak menimbulkan biaya pada akun Google Cloud Anda untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.

Menghapus project

Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.

Untuk menghapus project:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Menghapus set data

  1. Di Konsol Google Cloud, buka halaman BigQuery.

    Buka BigQuery

  2. Di panel Explorer, telusuri set data data_lineage_demo yang telah Anda buat.

  3. Klik kanan set data, lalu pilih Hapus.

  4. Konfirmasi tindakan penghapusan Anda.

Langkah selanjutnya