Cloud Data Fusion menyediakan plugin Sink Dataplex untuk menyerap data ke salah satu aset yang didukung Dataplex.
Sebelum memulai
- Jika Anda tidak memiliki instance Cloud Data Fusion, buat instance. Plugin ini tersedia di instance yang berjalan di Cloud Data Fusion versi 6.6 atau yang lebih baru. Untuk mengetahui informasi selengkapnya, lihat Membuat instance publik Cloud Data Fusion.
- Set data BigQuery atau bucket Cloud Storage tempat data diserap harus menjadi bagian dari data lake Dataplex.
- Agar data dapat dibaca dari entity Cloud Storage, Dataproc Metastore harus dilampirkan ke data lake.
- Data CSV di entitas Cloud Storage tidak didukung.
- Di project Dataplex, aktifkan Akses Google Pribadi di subnetwork, yang biasanya ditetapkan ke
default
, atau tetapkaninternal_ip_only
kefalse
.
Peran yang diperlukan
Untuk mendapatkan izin yang diperlukan guna mengelola peran,
minta administrator untuk memberi Anda
peran IAM berikut di agen layanan Dataproc dan agen layanan Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
):
-
Developer Dataplex (
roles/dataplex.developer
) -
Pembaca Data Dataplex (
roles/dataplex.dataReader
) -
Pengguna Metadata Dataproc Metastore (
roles/metastore.metadataUser
) -
Agen Layanan Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Pembaca Metadata Dataplex (
roles/dataplex.metadataReader
)
Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat Mengelola akses ke project, folder, dan organisasi.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Menambahkan plugin ke pipeline
Di konsol Google Cloud, buka halaman Instance Cloud Data Fusion.
Halaman ini memungkinkan Anda mengelola instance.
Untuk membuka instance, klik Lihat instance.
Buka halaman Studio, luaskan menu Sink, lalu klik Dataplex.
Mengonfigurasi plugin
Setelah menambahkan plugin ini ke pipeline di halaman Studio, klik sink Dataplex untuk mengonfigurasi dan menyimpan propertinya.
Untuk informasi selengkapnya tentang konfigurasi, lihat referensi Dataplex Sink.
Opsional: Mulai menggunakan pipeline contoh
Contoh pipeline tersedia, termasuk sumber SAP ke pipeline sink Dataplex dan sumber Dataplex ke pipeline sink BigQuery.
Untuk menggunakan pipeline contoh, buka instance Anda di UI Cloud Data Fusion, klik Hub > Pipelines, lalu pilih salah satu pipeline Dataplex. Dialog akan terbuka untuk membantu Anda membuat pipeline.
Menjalankan pipeline
Setelah men-deploy pipeline, buka pipeline Anda di halaman Studio Cloud Data Fusion.
Klik Konfigurasi > Resource.
Opsional: Ubah Executor CPU dan Memory berdasarkan ukuran data keseluruhan dan jumlah transformasi yang digunakan dalam pipeline Anda.
Klik Save.
Untuk memulai pipeline data, klik Run.
Langkah selanjutnya
- Memproses data dengan Cloud Data Fusion menggunakan plugin Sumber Dataplex.