Memproses data dengan Cloud Data Fusion

Cloud Data Fusion menyediakan plugin Sumber Dataplex untuk membaca data dari entity (tabel) Dataplex yang ada di Cloud Storage atau aset BigQuery. Dengan plugin Sumber Dataplex, Anda dapat memperlakukan data dalam aset Cloud Storage sebagai tabel dan memfilter data dengan kueri SQL sederhana.

Sebelum memulai

  • Buat instance Cloud Data Fusion, jika Anda belum memilikinya. Plugin ini tersedia pada instance yang berjalan di Cloud Data Fusion versi 6.6 atau yang lebih baru.

  • Data sumber harus sudah menjadi bagian dari zona Dataplex dan aset (baik bucket Cloud Storage atau set data BigQuery).

  • Untuk menggunakan tabel dari Cloud Storage, Anda harus mengonfigurasi metastore untuk lake Anda.

  • Agar data dapat dibaca dari entity Cloud Storage, Dataproc Metastore harus terhubung ke lake.

  • Data CSV dalam entity Cloud Storage tidak didukung.

  • Dalam project Dataplex, aktifkan Akses Google Pribadi di subjaringan, yang biasanya ditetapkan ke default, atau tetapkan internal_ip_only ke false.

Peran yang diperlukan

Untuk mendapatkan izin yang diperlukan untuk mengelola peran, minta administrator untuk memberi Anda peran IAM berikut di akun layanan Dataproc dan akun layanan yang dikelola Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com):

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Anda mungkin juga bisa mendapatkan izin yang diperlukan melalui peran kustom atau peran bawaan lainnya.

Batasan

  • Untuk aset Cloud Storage: plugin ini tidak mendukung pembacaan dari file CSV. Alat ini mendukung pembacaan dari format JSON, Avro, Parquet, dan ORC.

  • Untuk aset Cloud Storage: Tanggal Mulai Partisi dan Tanggal Akhir Partisi tidak berlaku.

Menambahkan plugin ke pipeline

  1. Di konsol Google Cloud, buka halaman Instance Cloud Data Fusion.

    Buka Instance

    Halaman ini dapat Anda gunakan untuk mengelola instance.

  2. Klik Lihat instance untuk membuka instance di UI Cloud Data Fusion.

  3. Buka halaman Studio, luaskan menu Source, lalu klik Dataplex.

Mengonfigurasi plugin

Setelah menambahkan plugin ini ke pipeline di halaman Studio, klik sumber Dataplex untuk mengonfigurasi propertinya.

Untuk mengetahui informasi selengkapnya tentang konfigurasi, lihat referensi Sumber Dataplex.

Opsional: Memulai pipeline contoh

Contoh pipeline tersedia, termasuk sumber SAP ke pipeline sink Dataplex dan sumber Dataplex ke pipeline sink BigQuery.

Untuk menggunakan contoh pipeline, buka instance di UI Cloud Data Fusion, klik Hub > Pipeline, lalu pilih salah satu pipeline Dataplex. Sebuah dialog akan terbuka untuk membantu Anda membuat pipeline.

Langkah selanjutnya