Saat Anda menggunakan layanan Dataproc untuk membuat cluster dan menjalankan tugas di cluster, layanan akan menyiapkan peran dan izin Dataproc yang diperlukan di project Anda untuk mengakses dan menggunakan resource Google Cloud yang diperlukan untuk menyelesaikan tugas ini. Namun, jika Anda melakukan pekerjaan lintas project, misalnya untuk mengakses data di project lain, Anda harus menyiapkan peran dan izin yang diperlukan untuk mengakses resource lintas project.
Untuk membantu Anda berhasil melakukan pekerjaan lintas project, dokumen ini mencantumkan berbagai prinsipal yang menggunakan layanan Dataproc dan peran yang berisi izin yang diperlukan agar prinsipal tersebut dapat mengakses dan menggunakan resource Google Cloud.
Ada tiga akun utama (identitas) yang mengakses dan menggunakan Dataproc:
- Identitas Pengguna
- Identitas Bidang Kontrol
- Identitas Bidang Data
Pengguna Dataproc API (Identitas pengguna)
Contoh: username@example.com
Ini adalah pengguna yang memanggil layanan Dataproc untuk membuat cluster, mengirimkan tugas, dan membuat permintaan lain ke layanan. Pengguna biasanya adalah individu, tetapi juga dapat berupa akun layanan jika Dataproc dipanggil melalui klien API atau dari layanan Google Cloud lainnya seperti Compute Engine, fungsi Cloud Run, atau Cloud Composer.
Peran terkait
Catatan
- Tugas yang dikirimkan Dataproc API berjalan sebagai
root
di Linux. Cluster Dataproc mewarisi metadata SSH Compute Engine di seluruh project, kecuali jika diblokir secara eksplisit dengan menetapkan
--metadata=block-project-ssh-keys=true
saat Anda membuat cluster (lihat Metadata cluster).Direktori pengguna HDFS dibuat untuk setiap pengguna SSH tingkat project. Direktori HDFS ini dibuat pada waktu deployment cluster, dan pengguna SSH baru (pasca-deployment) tidak diberi direktori HDFS di cluster yang ada.
Dataproc Service Agent (Identitas Control Plane)
Contoh: service-project-number@dataproc-accounts.iam.gserviceaccount.com
Akun layanan Agen Layanan Dataproc Dataproc digunakan untuk melakukan serangkaian operasi sistem yang luas pada resource yang berada dalam project tempat cluster Dataproc dibuat, termasuk:
- Pembuatan resource Compute Engine, termasuk instance VM, grup instance, dan template instance
- Operasi
get
danlist
untuk mengonfirmasi konfigurasi resource seperti image, firewall, tindakan inisialisasi Dataproc, dan bucket Cloud Storage - Pembuatan otomatis bucket staging dan temp Dataproc jika bucket staging atau temp tidak ditentukan oleh pengguna
- Menulis metadata konfigurasi cluster ke bucket staging
- Mengakses jaringan VPC di project host
Peran terkait
Akun Layanan VM Dataproc (Identitas Data Plane)
Contoh: project-number-compute@developer.gserviceaccount.com
Kode aplikasi Anda berjalan sebagai akun layanan VM di VM Dataproc. Tugas pengguna diberi peran (dengan izin terkait) akun layanan ini.
Akun layanan VM:
- berkomunikasi dengan bidang kontrol Dataproc
- membaca dan menulis data dari dan ke bucket staging dan sementara Dataproc
- Seperti yang diperlukan oleh tugas Dataproc Anda, membaca dan menulis data dari dan ke Cloud Storage, BigQuery, Cloud Logging, dan resource Google Cloud lainnya.
Peran terkait