Cloud Data Fusion menyediakan plugin Sink Dataplex untuk menyerap data ke aset apa pun yang didukung Dataplex.
Sebelum memulai
- Buat instance Cloud Data Fusion, jika Anda belum memilikinya. Plugin ini tersedia di instance yang berjalan di Cloud Data Fusion versi 6.6 atau yang lebih baru.
- Set data BigQuery atau bucket Cloud Storage tempat data diserap harus merupakan bagian dari Dataplex lake.
- Agar data dapat dibaca dari entitas Cloud Storage, Dataproc Metastore harus dipasang ke danau.
- Data CSV dalam entity Cloud Storage tidak didukung.
- Dalam project Dataplex, aktifkan Akses Google Pribadi pada subnetwork, yang biasanya ditetapkan ke
default
, atau tetapkaninternal_ip_only
kefalse
.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk mengelola peran, minta administrator Anda untuk memberi Anda peran IAM berikut di akun layanan Dataproc dan akun layanan yang dikelola Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com
):
-
Developer Dataplex (
roles/dataplex.developer
) -
Dataplex Data Reader (
roles/dataplex.dataReader
) -
Pengguna Metadata Dataproc Metastore (
roles/metastore.metadataUser
) -
Agen Layanan Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Dataplex Metadata Reader (
roles/dataplex.metadataReader
)
Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.
Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran khusus atau peran bawaan lainnya.
Menambahkan plugin ke pipeline
Di konsol Google Cloud, buka halaman Instance Cloud Data Fusion.
Halaman ini dapat Anda gunakan untuk mengelola instance.
Klik Lihat instance untuk membuka instance di UI Cloud Data Fusion.
Buka halaman Studio, luaskan menu Sink, lalu klik Dataplex.
Mengonfigurasi plugin
Setelah menambahkan plugin ini ke pipeline di halaman Studio, klik sink Dataplex untuk mengonfigurasi dan menyimpan propertinya.
Untuk mengetahui informasi selengkapnya tentang konfigurasi, lihat referensi Dataplex Sink.
Opsional: Memulai pipeline contoh
Contoh pipeline tersedia, termasuk sumber SAP ke pipeline sink Dataplex dan sumber Dataplex ke pipeline sink BigQuery.
Untuk menggunakan contoh pipeline, buka instance di UI Cloud Data Fusion, klik Hub > Pipeline, lalu pilih salah satu pipeline Dataplex. Sebuah dialog akan terbuka untuk membantu Anda membuat pipeline.
Menjalankan pipeline
Setelah men-deploy pipeline, buka pipeline di halaman Studio Cloud Data Fusion.
Klik Configure > Resources.
Opsional: Ubah Executor CPU dan Memory berdasarkan keseluruhan ukuran data dan jumlah transformasi yang digunakan dalam pipeline Anda.
Klik Simpan.
Untuk memulai pipeline data, klik Jalankan.
Langkah selanjutnya
- Proses data dengan Cloud Data Fusion menggunakan plugin Sumber Dataplex.