Halaman ini menjelaskan cara melihat silsilah data yang dihasilkan oleh pipeline Cloud Data Fusion dengan perpindahan data lain di Google Cloud, untuk tujuan penemuan dan tata kelola. Anda dapat melihat grafik silsilah data untuk sumber data yang didukung di halaman Dataplex di konsol, atau menggunakan Data Lineage API untuk mengambil catatan silsilah data yang lengkap.
Plugin yang mendukung silsilah data Dataplex
Cloud Data Fusion dan Dataplex mendukung silsilah tingkat aset untuk plugin berikut:
- Amazon S3
- BigQuery
- Sink Multi Table BigQuery (versi 6.9.1 dan yang lebih baru)
- Spanner
- Cloud Storage
- Cloud SQL untuk MySQL
- Cloud SQL untuk PostgreSQL
- Dataplex
- FTP
- Database Umum
- HTTP
- MSSQL/SQL Server
- Beberapa sumber Tabel Database (versi 6.9.1 dan yang lebih baru)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- Tabel SAP
Untuk mengetahui informasi selengkapnya, lihat plugin Cloud Data Fusion.
Sebelum memulai
Agar dapat menampilkan grafik silsilah Cloud Data Fusion pada halaman Dataplex di konsol, lakukan hal berikut:
Buat pipeline data yang hanya menggunakan plugin yang didukung.
Aktifkan Data Lineage API di project yang berisi instance Cloud Data Fusion Anda.
Berikan peran Data Lineage Events Produsen (
roles/datalineage.producer
) ke akun layanan yang dikelola Cloud Data Fusion, Agen Layanan Cloud Data Fusion API. Prosesnya bervariasi jika instance Anda berjalan di Cloud Data Fusion versi sebelumnya dan RBAC diaktifkan.6.10+ atau tanpa RBAC
Jika instance Cloud Data Fusion Anda menggunakan versi 6.10.0 atau yang lebih baru, atau instance Anda menggunakan versi sebelumnya dan RBAC tidak diaktifkan, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman IAM.
Centang kotak Include Google-provided role grants.
Pilih akun layanan Agen Layanan Cloud Data Fusion API, lalu klik
Edit.Klik Tambahkan peran lain, lalu pilih peran Produser Peristiwa Garis Data Data.
Klik Save.
<6,10 dengan RBAC
Jika instance Cloud Data Fusion menggunakan versi yang lebih lama dari 6.10.0 dan RBAC diaktifkan, akun layanan tidak akan muncul dalam daftar akun utama di halaman IAM. Anda harus memasukkan nama akun layanan secara manual.
Untuk memberikan peran yang diperlukan, ikuti langkah-langkah berikut:
Di konsol Google Cloud, buka halaman IAM.
Klik Grant access.
Pada kolom New principals, masukkan akun layanan Cloud Data Fusion API Service Agent. Gunakan format berikut:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
.Ganti
TENANT_PROJECT_ID
dengan ID tenant untuk instance Anda. Untuk melihat ID project tenant, buka halaman Instances, lalu klik nama instance untuk melihat detail instance.Pilih peran Data Lineage Events Produsen.
Klik Save.
Mengaktifkan silsilah data Dataplex di Cloud Data Fusion
Untuk instance baru di Cloud Data Fusion, silsilah data Dataplex dinonaktifkan secara default. Jika Anda membuat instance sebelum 27 Januari 2024 dengan versi 6.8.0 atau yang lebih baru, instance tersebut akan diaktifkan secara default setelah menyelesaikan langkah-langkah di bagian Sebelum memulai.
Mengaktifkan silsilah data Dataplex saat Anda membuat instance
Konsol
Untuk mengaktifkan silsilah data Dataplex saat Anda membuat instance, ikuti langkah-langkah berikut:
Buka halaman Instance Cloud Data Fusion, lalu klik Create an instance.
Saat Anda mengonfigurasi instance, luaskan bagian Advanced options lalu klik Enable integration with Dataplex data lineage. Untuk mengetahui informasi lebih lanjut mengenai pembuatan instance, lihat Membuat instance publik.
REST API
Untuk mengaktifkan silsilah data Dataplex saat Anda membuat instance, tetapkan properti dataplex_data_lineage_integration_enabled
opsional ke true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Untuk menonaktifkannya, tetapkan properti ke salah (false) atau hapus properti karena silsilah dinonaktifkan secara default saat Anda membuat instance baru.
Mengaktifkan atau menonaktifkan silsilah data Dataplex dalam instance yang ada
Konsol
Untuk mengaktifkan atau menonaktifkan silsilah data Dataplex dalam instance yang ada di Cloud Data Fusion, ikuti langkah-langkah berikut:
- Lihat detail instance:
Di konsol Google Cloud, buka halaman Cloud Data Fusion.
Klik Instance, lalu klik nama instance untuk membuka halaman Detail instance.
- Di kolom Integrasi silsilah data Dataplex, klik Edit.
- Aktifkan atau nonaktifkan silsilah data Dataplex, lalu klik Save.
REST API
Untuk mengaktifkan silsilah data Dataplex dalam instance yang ada di Cloud Data Fusion, tetapkan properti dataplex_data_lineage_integration_enabled
ke true
dan sertakan parameter value updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Untuk menonaktifkan silsilah data Dataplex dalam instance yang ada di Cloud Data Fusion, tetapkan properti dataplex_data_lineage_integration_enabled
ke false
dan sertakan parameter value updateMask
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Melihat grafik silsilah data
Guna melihat grafik silsilah untuk entity di semua layanan Google Cloud, lakukan hal berikut:
Buka instance di Cloud Data Fusion dan jalankan pipeline data yang menggunakan plugin yang didukung.
Lihat grafik silsilah data pada halaman Dataplex di konsol dan cari aset yang informasi silsilahnya ingin Anda lihat.
Batasan
Melihat silsilah di Dataplex memiliki batasan berikut:
Silsilah di Dataplex hanya dapat ditemukan jika ada entity BigQuery yang terhubung ke plugin yang didukung. Untuk mengetahui informasi selengkapnya terkait kapan grafik silsilah data tersedia, lihat Tentang silsilah data.
Data Lineage API tidak mendukung kunci enkripsi yang dikelola pelanggan (CMEK).
Cloud Data Fusion tidak mendukung fitur ini di lokasi
me-central1
ataueurope-west12
.Tinjau pertimbangan silsilah data.
Langkah selanjutnya
- Pelajari silsilah data lebih lanjut.