Halaman ini diterjemahkan oleh Cloud Translation API.

Mengimpor metadata dari sumber kustom menggunakan Alur Kerja

Dokumen ini menjelaskan cara mengimpor metadata dari sumber pihak ketiga ke Katalog Universal Dataplex dengan menjalankan pipeline konektivitas terkelola di Workflows.

Untuk menyiapkan pipeline konektivitas terkelola, Anda membuat konektor untuk sumber data. Kemudian, Anda menjalankan pipeline di Workflows. Pipeline mengekstrak metadata dari sumber data Anda, lalu mengimpor metadata ke Katalog Universal Dataplex. Jika perlu, pipeline juga membuat grup entri Dataplex Universal Catalog di project Google Cloud Anda.

Untuk mengetahui informasi selengkapnya tentang konektivitas terkelola, lihat Ringkasan konektivitas terkelola.

Sebelum memulai

Sebelum mengimpor metadata, selesaikan tugas-tugas di bagian ini.

Membangun konektor

Konektor mengekstrak metadata dari sumber data Anda dan membuat file impor metadata yang dapat diimpor oleh Dataplex Universal Catalog. Konektor adalah image Artifact Registry yang dapat dijalankan di Dataproc Serverless.

Buat konektor kustom yang mengekstrak metadata dari sumber pihak ketiga Anda.

Untuk contoh konektor yang dapat Anda gunakan sebagai template referensi untuk membuat konektor Anda sendiri, lihat Mengembangkan konektor kustom untuk impor metadata.

Mengonfigurasi Google Cloud resource

Enable the Workflows, Dataproc, Cloud Storage, Dataplex, Secret Manager, Artifact Registry, and Cloud Scheduler APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Jika tidak berencana menjalankan pipeline sesuai jadwal, Anda tidak perlu mengaktifkan Cloud Scheduler API.
Buat secret di Secret Manager untuk menyimpan kredensial sumber data pihak ketiga Anda.
Konfigurasi jaringan Virtual Private Cloud (VPC) untuk menjalankan workload Dataproc Serverless for Spark.
Buat bucket Cloud Storage untuk menyimpan file impor metadata.
Buat resource Dataplex Universal Catalog berikut:
1. Buat jenis aspek kustom untuk entri yang ingin Anda impor.
2. Buat jenis entri kustom untuk entri yang ingin Anda impor.

Peran yang diperlukan

Akun layanan merepresentasikan identitas alur kerja dan menentukan izin yang dimiliki alur kerja dan resource yang dapat diaksesnya. Google Cloud Anda memerlukan akun layanan untuk Workflows (untuk menjalankan pipeline) dan untuk Dataproc Serverless (untuk menjalankan konektor).

Anda dapat menggunakan akun layanan default Compute Engine (PROJECT_NUMBER-compute@), atau membuat akun layanan Anda sendiri (atau beberapa akun) untuk menjalankan pipeline konektivitas terkelola.

Konsol

Di konsol Google Cloud , buka halaman IAM.

Buka IAM
Pilih project tempat Anda ingin mengimpor metadata.
Klik Grant Access, lalu masukkan alamat email akun layanan.
Tetapkan peran berikut ke akun layanan:
- Logs Writer
- Pemilik Grup Entri Dataplex
- Pemilik Tugas Metadata Dataplex
- Editor Katalog Dataplex
- Editor Dataproc
- Dataproc Worker
- Secret Manager Secret Accessor - pada secret yang menyimpan kredensial untuk sumber data Anda
- Storage Object User - di bucket Cloud Storage
- Artifact Registry Reader - di repositori Artifact Registry yang berisi image konektor
- Service Account User - jika Anda menggunakan akun layanan yang berbeda, berikan peran ini kepada akun layanan yang menjalankan Workflows di akun layanan yang menjalankan tugas batch Dataproc Serverless
- Workflows Invoker - jika Anda ingin menjadwalkan pipeline
Simpan perubahan.

gcloud

Memberikan peran ke akun layanan. Jalankan perintah berikut:

gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/logging.logWriter
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataplex.entryGroupOwner
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataplex.metadataJobOwner
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataplex.catalogEditor
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataproc.editor
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/dataproc.worker

Ganti kode berikut:

PROJECT_ID: nama project Google Cloud target tempat metadata akan diimpor.
SERVICE_ACCOUNT_ID: akun layanan, seperti my-service-account@my-project..

Beri akun layanan peran berikut di tingkat resource:

gcloud secrets add-iam-policy-binding SECRET_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/secretmanager.secretaccessor
gcloud projects add-iam-policy-binding PROJECT_ID \
    --member="serviceAccount:SERVICE_ACCOUNT_ID" \
    --role=roles/storage.objectUser \
    --condition=resource.name.startsWith('projects/_/buckets/BUCKET_ID')
gcloud artifacts repositories add-iam-policy-binding REPOSITORY \
    --location=REPOSITORY_LOCATION \
    --member=SERVICE_ACCOUNT_ID} \
    --role=roles/artifactregistry.reader

Ganti kode berikut:

SECRET_ID: ID rahasia yang menyimpan kredensial untuk sumber data Anda. Menggunakan format projects/PROJECT_ID/secrets/SECRET_ID.
BUCKET_ID: nama bucket Cloud Storage.
REPOSITORY: repositori Artifact Registry yang berisi image konektor.
REPOSITORY_LOCATION: lokasi Google Cloud tempat repositori dihosting.

Berikan peran roles/iam.serviceAccountUser kepada akun layanan yang menjalankan Workflows di akun layanan yang menjalankan tugas batch Dataproc Serverless. Anda harus memberikan peran ini meskipun Anda menggunakan akun layanan yang sama untuk Workflows dan Dataproc Serverless.
```
gcloud iam service-accounts add-iam-policy-binding \
    serviceAccount:SERVICE_ACCOUNT_ID \
    --member='SERVICE_ACCOUNT_ID' \
    --role='roles/iam.serviceAccountUser'
```
Jika Anda menggunakan akun layanan yang berbeda, nilai untuk tanda --member adalah akun layanan yang menjalankan tugas batch Dataproc Serverless.

Jika Anda ingin menjadwalkan pipeline, berikan peran berikut kepada akun layanan:

gcloud projects add-iam-policy-binding PROJECT_ID \
 --member="SERVICE_ACCOUNT_ID" \
 --role=roles/workflows.invoker