Halaman ini menjelaskan cara mengelola kontrol akses saat Anda men-deploy dan menjalankan pipeline yang menggunakan cluster Dataproc dalam project Google Cloud lainnya.
Skenario
Secara default, saat diluncurkan di project Google Cloud, instance Cloud Data Fusion akan men-deploy dan menjalankan pipeline menggunakan cluster Dataproc dalam project yang sama. Namun, organisasi Anda mungkin mengharuskan Anda untuk menggunakan cluster dalam project lain. Untuk kasus penggunaan ini, Anda harus mengelola akses di antara project. Halaman berikut menjelaskan cara mengubah konfigurasi dasar pengukuran (default) dan menerapkan kontrol akses yang sesuai.
Sebelum memulai
Untuk memahami solusi dalam kasus penggunaan ini, Anda memerlukan konteks berikut:
- Pemahaman tentang konsep Cloud Data Fusion dasar
- Pemahaman tentang Identity and Access Management (IAM) untuk Cloud Data Fusion
- Pemahaman tentang jaringan Cloud Data Fusion
Asumsi dan ruang lingkup
Kasus penggunaan ini memiliki persyaratan berikut:
- Instance Cloud Data Fusion pribadi. Untuk alasan keamanan, organisasi mungkin mengharuskan Anda menggunakan jenis instance ini.
- Sumber dan sink BigQuery.
- Kontrol akses dengan IAM, bukan kontrol akses berbasis peran (RBAC).
Solusi
Solusi ini membandingkan arsitektur dan konfigurasi khusus dasar pengukuran serta kasus penggunaan.
Arsitektur
Diagram berikut membandingkan arsitektur project untuk membuat instance Cloud Data Fusion dan menjalankan pipeline saat Anda menggunakan cluster dalam project yang sama (dasar pengukuran) dan dalam project yang berbeda melalui VPC project tenant.
Arsitektur dasar
Diagram ini menunjukkan arsitektur dasar project:
Untuk konfigurasi dasar pengukuran, Anda membuat instance Cloud Data Fusion pribadi dan menjalankan pipeline tanpa penyesuaian tambahan:
- Anda menggunakan salah satu profil komputasi bawaan
- Sumber dan sink berada dalam project yang sama dengan instance
- Tidak ada peran tambahan yang diberikan ke akun layanan mana pun
Untuk informasi selengkapnya tentang project tenant dan pelanggan, lihat Jaringan.
Arsitektur kasus penggunaan
Diagram ini menunjukkan arsitektur project saat Anda menggunakan cluster dalam project lain:
Konfigurasi
Bagian berikut membandingkan konfigurasi dasar pengukuran dengan konfigurasi khusus kasus penggunaan untuk menggunakan cluster Dataproc di project yang berbeda melalui VPC project tenant default.
Dalam deskripsi kasus penggunaan berikut, project pelanggan adalah tempat instance Cloud Data Fusion dijalankan, sedangkan project Dataproc adalah tempat cluster Dataproc diluncurkan.
VPC dan instance project tenant
Dasar pengukuran | Kasus penggunaan |
---|---|
Dalam diagram arsitektur dasar pengukuran sebelumnya, project tenant
berisi komponen berikut:
|
Tidak ada konfigurasi tambahan yang diperlukan untuk kasus penggunaan ini. |
Project pelanggan
Dasar pengukuran | Kasus penggunaan |
---|---|
Project Google Cloud adalah tempat Anda men-deploy dan menjalankan pipeline. Secara default, cluster Dataproc diluncurkan dalam project ini saat Anda menjalankan pipeline. | Dalam kasus penggunaan ini, Anda mengelola dua project. Di halaman ini, project pelanggan mengacu ke tempat instance Cloud Data Fusion dijalankan. Project Dataproc mengacu pada tempat cluster Dataproc diluncurkan. |
VPC Pelanggan
Dasar pengukuran | Kasus penggunaan |
---|---|
Dari perspektif Anda (pelanggan), VPC pelanggan adalah tempat Cloud Data Fusion berada secara logis. Poin-poin penting: Anda dapat menemukan detail VPC Pelanggan di halaman jaringan VPC pada project Anda. |
Tidak ada konfigurasi tambahan yang diperlukan untuk kasus penggunaan ini. |
Subnet Cloud Data Fusion
Dasar pengukuran | Kasus penggunaan |
---|---|
Dari perspektif Anda (pelanggan), subnet ini adalah tempat Cloud Data Fusion berada secara logis. Poin-poin penting: Region subnet ini sama dengan lokasi instance Cloud Data Fusion di project tenant. |
Tidak ada konfigurasi tambahan yang diperlukan untuk kasus penggunaan ini. |
Subnet Dataproc
Dasar pengukuran | Kasus penggunaan |
---|---|
Subnet tempat cluster Dataproc diluncurkan saat Anda menjalankan pipeline. Poin-poin penting:
|
Ini adalah subnet baru tempat cluster Dataproc diluncurkan saat Anda menjalankan pipeline. Poin-poin penting:
|
Sumber dan sink
Dasar pengukuran | Kasus penggunaan |
---|---|
Sumber tempat data diekstrak dan sink di tempat data dimuat, seperti sumber dan sink BigQuery. Poin-poin penting:
|
Konfigurasi kontrol akses khusus kasus penggunaan di halaman ini adalah untuk sumber dan sink BigQuery. |
Cloud Storage
Dasar pengukuran | Kasus penggunaan |
---|---|
Bucket penyimpanan dalam project pelanggan yang membantu mentransfer file antara Cloud Data Fusion dan Dataproc. Poin-poin penting:
|
Tidak ada konfigurasi tambahan yang diperlukan untuk kasus penggunaan ini. |
Bucket sementara yang digunakan oleh source dan sink
Dasar pengukuran | Kasus penggunaan |
---|---|
Bucket sementara yang dibuat oleh plugin untuk sumber dan sink, seperti tugas pemuatan yang dimulai oleh plugin Sink BigQuery. Poin-poin penting:
|
Untuk kasus penggunaan ini, bucket dapat dibuat di project apa pun. |
Bucket yang merupakan sumber atau sink data untuk plugin
Dasar pengukuran | Kasus penggunaan |
---|---|
Bucket pelanggan, yang Anda tetapkan dalam konfigurasi untuk plugin, seperti plugin Cloud Storage dan plugin FTP ke Cloud Storage. | Tidak ada konfigurasi tambahan yang diperlukan untuk kasus penggunaan ini. |
IAM: Agen Layanan Cloud Data Fusion API
Dasar pengukuran | Kasus penggunaan |
---|---|
Saat Cloud Data Fusion API diaktifkan, peran Agen Layanan Cloud Data Fusion API ( Poin-poin penting:
|
Untuk kasus penggunaan ini, berikan peran Agen Layanan Cloud Data Fusion API ke akun layanan di project Dataproc. Kemudian, berikan peran berikut dalam project tersebut:
|
IAM: Akun layanan Dataproc
Dasar pengukuran | Kasus penggunaan |
---|---|
Akun layanan yang digunakan untuk menjalankan pipeline sebagai tugas di dalam cluster Dataproc. Secara default, akun ini adalah akun layanan Compute Engine. Opsional: pada konfigurasi dasar pengukuran, Anda dapat mengubah akun layanan default ke akun layanan lain dari project yang sama. Berikan peran IAM berikut ke akun layanan yang baru:
|
Contoh kasus penggunaan ini mengasumsikan bahwa Anda menggunakan akun layanan Compute Engine default ( Berikan peran berikut ke akun layanan Compute Engine default di project Dataproc.
Berikan peran Service Account User ke Akun Layanan Cloud Data Fusion di akun layanan Compute Engine default dari project Dataproc. Tindakan ini harus dilakukan dalam project Dataproc. Tambahkan akun layanan Compute Engine default dari project Dataproc ke project Cloud Data Fusion. Berikan juga peran berikut:
|
API
Dasar pengukuran | Kasus penggunaan |
---|---|
Saat Anda mengaktifkan Cloud Data Fusion API, API berikut juga akan diaktifkan. Untuk informasi selengkapnya tentang API ini, buka halaman APIs & services di project Anda.
Saat mengaktifkan Cloud Data Fusion API, akun layanan berikut akan otomatis ditambahkan ke project Anda:
|
Untuk kasus penggunaan ini, aktifkan API berikut dalam project yang berisi project Dataproc:
|
Kunci enkripsi
Dasar pengukuran | Kasus penggunaan |
---|---|
Dalam konfigurasi dasar pengukuran, kunci enkripsi dapat dikelola Google atau CMEK Poin-poin penting: Jika Anda menggunakan CMEK, konfigurasi dasar pengukuran Anda memerlukan hal berikut:
Bergantung pada layanan yang digunakan dalam pipeline Anda, seperti BigQuery atau Cloud Storage, akun layanan juga harus diberi peran Cloud KMS CryptoKey Encrypter/Decrypter:
|
Jika tidak menggunakan CMEK, Anda tidak perlu melakukan perubahan tambahan untuk kasus penggunaan ini. Jika Anda menggunakan CMEK, peran Encrypter/Decrypter Cloud KMS CryptoKey harus diberikan ke akun layanan berikut di level kunci dalam project tempatnya dibuat:
Bergantung pada layanan yang digunakan dalam pipeline Anda, seperti BigQuery atau Cloud Storage, akun layanan lainnya juga harus diberi peran Cloud KMS CryptoKey Encrypter/Decrypter pada level kunci. Contoh:
|
Setelah Anda membuat konfigurasi khusus kasus penggunaan ini, pipeline data Anda dapat mulai berjalan pada cluster dalam project lain.
Langkah selanjutnya
- Pelajari jaringan di Cloud Data Fusion lebih lanjut.
- Lihat referensi peran dasar dan standar IAM.