Entity utama Dataproc

Ketika Anda menggunakan layanan Dataproc untuk membuat cluster dan menjalankan tugas pada cluster Anda, layanan ini akan menyiapkan peran dan izin Dataproc yang diperlukan dalam project Anda untuk mengakses dan menggunakan resource Google Cloud yang dibutuhkan untuk menyelesaikan tugas ini. Namun, jika Anda melakukan pekerjaan lintas project, misalnya untuk mengakses data dalam project lain, Anda perlu menyiapkan peran dan izin yang diperlukan untuk mengakses resource lintas project.

Untuk membantu Anda melakukan pekerjaan lintas project dengan sukses, dokumen ini mencantumkan berbagai akun utama yang menggunakan layanan Dataproc dan peran-peran yang berisi izin yang diperlukan bagi akun utama tersebut untuk mengakses dan menggunakan resource Google Cloud.

Ada tiga entity utama (identitas) yang mengakses dan menggunakan Dataproc:

  1. Identitas Pengguna
  2. Identitas Bidang Kontrol
  3. Identitas Bidang Data

Pengguna Dataproc API (Identitas pengguna)

Contoh: username@example.com

Ini adalah pengguna yang memanggil layanan Dataproc untuk membuat cluster, mengirimkan tugas, dan membuat permintaan lain ke layanan. Pengguna biasanya individu, tetapi juga dapat berupa akun layanan jika Dataproc dipanggil melalui klien API atau dari layanan Google Cloud lain seperti Compute Engine, Cloud Functions, atau Cloud Composer.

Peran terkait

Catatan

  • Tugas yang dikirimkan Dataproc API berjalan sebagai root di Linux.
  • Cluster Dataproc mewarisi metadata SSH Compute Engine di seluruh project kecuali jika secara eksplisit diblokir dengan menetapkan --metadata=block-project-ssh-keys=true saat Anda membuat cluster (lihat Metadata cluster).

  • Direktori pengguna HDFS dibuat untuk setiap pengguna SSH level project. Direktori HDFS ini dibuat pada waktu deployment cluster, dan pengguna SSH baru (pasca-deployment) tidak diberi direktori HDFS pada cluster yang ada.

Agen Layanan Dataproc (identitas Bidang Kontrol)

Contoh: service-project-number@dataproc-accounts.iam.gserviceaccount.com

Akun layanan Agen Layanan Dataproc Dataproc digunakan untuk menjalankan serangkaian operasi sistem yang luas pada resource yang ada dalam project tempat cluster Dataproc dibuat, termasuk:

  • Pembuatan resource Compute Engine, termasuk instance VM, grup instance, dan template instance
  • Operasi get dan list untuk mengonfirmasi konfigurasi resource seperti gambar, firewall, tindakan inisialisasi Dataproc, dan bucket Cloud Storage
  • Pembuatan otomatis bucket staging dan temp Dataproc jika staging atau bucket temp tidak ditentukan oleh pengguna
  • Menulis metadata konfigurasi cluster ke bucket staging
  • Mengakses jaringan VPC di project host

Peran terkait

Akun Layanan VM Dataproc (identitas Data Plane)

Contoh: project-number-compute@developer.gserviceaccount.com

Kode aplikasi Anda dijalankan sebagai akun layanan VM pada VM Dataproc. Tugas pengguna diberi peran (dengan izin terkait) untuk akun layanan ini.

Akun layanan VM:

Peran terkait

Untuk informasi selengkapnya