Apache Hadoop YARN, HDFS, Spark, dan properti terkait
Komponen open source yang diinstal pada cluster Dataproc berisi banyak
file konfigurasi. Misalnya, Apache Spark dan Apache Hadoop memiliki beberapa file konfigurasi XML dan teks biasa. Anda dapat menggunakan
flag ‑‑properties dari perintah
gcloud dataproc clusters create
untuk mengubah banyak file konfigurasi umum saat membuat cluster.
Pemformatan
Flag gcloud dataproc clusters create --properties menerima format string berikut:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
- file_prefix dipetakan ke file konfigurasi yang telah ditentukan sebelumnya seperti yang ditunjukkan dalam tabel di bawah, dan property dipetakan ke properti dalam file. 
- Pembatas default yang digunakan untuk memisahkan beberapa properti cluster adalah koma (,). Namun, jika koma disertakan dalam nilai properti, Anda harus mengubah pembatas dengan menentukan "^delimiter^" di awal daftar properti (lihat gcloud topic escaping untuk informasi selengkapnya). - Contoh menggunakan pembatas "#":
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2 
 
- Contoh menggunakan pembatas "#":
Contoh
Perintah gcloud
Untuk mengubah setelan spark.master di file spark-defaults.conf, tambahkan tanda gcloud dataproc clusters create --properties berikut:
--properties 'spark:spark.master=spark://example.com'
Anda dapat mengubah beberapa properti sekaligus, dalam satu atau beberapa file konfigurasi,
dengan menggunakan pemisah koma. Setiap properti harus ditentukan dalam format
file_prefix:property=value lengkap. Misalnya, untuk mengubah setelan
spark.master dalam file spark-defaults.conf
dan setelan dfs.hosts dalam file hdfs-site.xml,
gunakan flag --properties berikut saat membuat cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
Untuk menyetel spark.executor.memory ke 10g, masukkan
    setelan properties berikut di
    bagian SoftwareConfig
    dari permintaan
      clusters.create Anda:
"properties": {
  "spark:spark.executor.memory": "10g"
}
Cara mudah untuk melihat cara membuat isi JSON permintaan REST cluster Dataproc API adalah dengan memulai perintah gcloud yang setara menggunakan tanda --log-http.
Berikut adalah contoh perintah gcloud dataproc clusters create, yang menetapkan properti cluster dengan flag --properties spark:spark.executor.memory=10g.
Log stdout menampilkan isi permintaan REST yang dihasilkan (cuplikan properties
  ditampilkan di bawah):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Output:
...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
...
== body end ==
...
Pastikan untuk membatalkan perintah setelah isi JSON muncul di output jika Anda tidak ingin perintah diterapkan.
Konsol
Untuk mengubah setelan spark.master dalam
  file spark-defaults.conf:
- Di konsol Google Cloud , buka halaman Dataproc Create a cluster. Klik panel Sesuaikan cluster, lalu scroll ke bagian Properti cluster.
- Klik + TAMBAHKAN PROPERTI. Pilih spark dalam daftar Awalan, lalu tambahkan "spark.master" di kolom Kunci dan setelan di kolom Nilai.
Properti cluster vs. tugas
Properti yang diawali dengan file Apache Hadoop YARN, HDFS, Spark, dan lainnya diterapkan di tingkat cluster saat Anda membuat cluster. Properti ini tidak dapat diterapkan ke cluster setelah pembuatan cluster. Namun, banyak properti ini juga dapat diterapkan ke tugas tertentu. Saat menerapkan properti ke tugas, awalan file tidak digunakan.
Contoh berikut menetapkan memori eksekutor Spark ke 4g untuk tugas Spark
(awalan spark: dihilangkan).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
Properti tugas dapat dikirimkan dalam file menggunakan
flag gcloud dataproc jobs submit job-type --properties-file (lihat, misalnya, deskripsi
--properties-file
untuk pengiriman tugas Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE adalah serangkaian pasangan key=value yang dibatasi baris. Properti yang akan ditetapkan adalah key,
dan nilai untuk menetapkan properti adalah value. Lihat class
java.util.Properties
untuk mengetahui deskripsi mendetail tentang format file properti.
Berikut adalah contoh file properti yang dapat
diteruskan ke tanda --properties-file saat mengirimkan tugas Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabel properti berawalan file
| Awalan file | File | Tujuan file | 
|---|---|---|
| capacity-scheduler | capacity-scheduler.xml | Konfigurasi Hadoop YARN Capacity Scheduler | 
| inti | core-site.xml | Konfigurasi umum Hadoop | 
| distcp | distcp-default.xml | Konfigurasi Hadoop Distributed Copy | 
| flink | flink-conf.yaml | Konfigurasi Flink | 
| flink-log4j | log4j.properties | File setelan Log4j | 
| hadoop-env | hadoop-env.sh | Variabel lingkungan khusus Hadoop | 
| hadoop-log4j | log4j.properties | File setelan Log4j | 
| hbase | hbase-site.xml | Konfigurasi HBase | 
| hbase-log4j | log4j.properties | File setelan Log4j | 
| HDFS | hdfs-site.xml | Konfigurasi Hadoop HDFS | 
| hive | hive-site.xml | Konfigurasi Hive | 
| hive-log4j2 | hive-log4j2.properties | File setelan Log4j | 
| hudi | hudi-default.conf | Konfigurasi Hudi | 
| mapred | mapred-site.xml | Konfigurasi Hadoop MapReduce | 
| mapred-env | mapred-env.sh | Variabel lingkungan khusus Hadoop MapReduce | 
| babi | pig.properties | Konfigurasi Pig | 
| pig-log4j | log4j.properties | File setelan Log4j | 
| presto | config.properties | Konfigurasi Presto | 
| presto-jvm | jvm.config | Konfigurasi JVM khusus Presto | 
| kilau | spark-defaults.conf | Konfigurasi Spark | 
| spark-env | spark-env.sh | Variabel lingkungan khusus Spark | 
| spark-log4j | log4j.properties | File setelan Log4j | 
| tez | tez-site.xml | Konfigurasi Tez | 
| webcat-log4j | webhcat-log4j2.properties | File setelan Log4j | 
| benang | yarn-site.xml | Konfigurasi Hadoop YARN | 
| yarn-env | yarn-env.sh | Variabel lingkungan khusus Hadoop YARN | 
| zeppelin | zeppelin-site.xml | Konfigurasi Zeppelin | 
| zeppelin-env | zeppelin-env.sh | Variabel lingkungan khusus Zeppelin (Hanya Komponen Opsional) | 
| zeppelin-log4j | log4j.properties | File setelan Log4j | 
| petugas kebun binatang | zoo.cfg | Konfigurasi Zookeeper | 
| zookeeper-log4j | log4j.properties | File setelan Log4j | 
Catatan
- Beberapa properti dicadangkan dan tidak dapat diganti karena memengaruhi fungsi cluster Dataproc. Jika Anda mencoba mengubah properti yang dicadangkan, Anda akan menerima pesan error saat membuat cluster.
- Anda dapat menentukan beberapa perubahan dengan memisahkan setiap perubahan menggunakan koma.
- Flag --propertiestidak dapat mengubah file konfigurasi yang tidak ditampilkan di atas.
- Perubahan pada properti akan diterapkan sebelum daemon di cluster Anda dimulai.
- Jika properti yang ditentukan ada, properti tersebut akan diperbarui. Jika properti yang ditentukan tidak ada, properti tersebut akan ditambahkan ke file konfigurasi.
Properti layanan Dataproc
Properti yang tercantum di bagian ini khusus untuk Dataproc. Properti ini dapat digunakan untuk mengonfigurasi lebih lanjut fungsi cluster Dataproc Anda.
Pemformatan
Flag gcloud dataproc clusters create --properties menerima format string berikut:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
- Pembatas default yang digunakan untuk memisahkan beberapa properti cluster adalah koma (,). Namun, jika koma disertakan dalam nilai properti, Anda harus mengubah pembatas dengan menentukan "^delimiter^" di awal daftar properti (lihat escaping topik gcloud untuk mengetahui informasi selengkapnya). - Contoh menggunakan pembatas "#":
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2 
 
- Contoh menggunakan pembatas "#":
Contoh:
Buat cluster dan tetapkan Mode Fleksibilitas yang Ditingkatkan ke pengacakan pekerja utama Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tabel properti layanan Dataproc
| Awalan properti | Properti | Nilai | Deskripsi | 
|---|---|---|---|
| dataproc | agent.process.threads.job.min | number | Dataproc menjalankan driver tugas pengguna secara serentak di thread pool. Properti ini mengontrol jumlah minimum thread di kumpulan thread untuk startup cepat meskipun tidak ada tugas yang berjalan (default: 10). | 
| dataproc | agent.process.threads.job.max | number | Dataproc menjalankan driver tugas pengguna secara serentak di thread pool. Properti ini mengontrol jumlah maksimum thread di kumpulan thread, sehingga membatasi konkurensi maksimum tugas pengguna. Tingkatkan nilai ini untuk konkurensi yang lebih tinggi (default: 100). | 
| dataproc | am.primary_only | trueataufalse | Setel properti ini ke trueuntuk mencegah master aplikasi berjalan di pekerja yang dapat di-preempt cluster Dataproc. Catatan: Fitur ini hanya tersedia dengan Dataproc 1.2 dan yang lebih tinggi. Nilai defaultnya adalahfalse. | 
| dataproc | conda.env.config.uri | gs://<path> | Lokasi file konfigurasi lingkungan Conda di Cloud Storage. Lingkungan Conda baru akan dibuat dan diaktifkan berdasarkan file ini. Untuk mengetahui informasi selengkapnya, lihat Menggunakan properti Cluster terkait Conda. (default: empty). | 
| dataproc | conda.packages | Paket Conda | Properti ini menggunakan daftar paket Conda yang dipisahkan koma dengan versi tertentu yang akan diinstal di lingkungan Conda base. Untuk mengetahui informasi selengkapnya, lihat Menggunakan properti Cluster terkait Conda. (default:empty). | 
| dataproc | dataproc.allow.zero.workers | trueataufalse | Tetapkan properti SoftwareConfig ini ke truedalam permintaan API Dataprocclusters.createuntuk membuat Cluster node tunggal, yang mengubah jumlah default pekerja dari 2 menjadi 0, dan menempatkan komponen pekerja di host master. Cluster Node tunggal juga dapat dibuat dari Google Cloud konsol atau dengan Google Cloud CLI dengan menyetel jumlah pekerja ke0. | 
| dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | Menetapkan nilai akan membuat master Dataproc dengan Intel Optane DC Persistent Memory. Catatan: VM Optane hanya dapat dibuat di zona us-central1-f, hanya dengan jenis mesinn1-highmem-96-aep, dan hanya di project yang masuk daftar yang diizinkan. | 
| dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | Menetapkan nilai akan membuat pekerja Dataproc dengan Intel Optane DC Persistent memory. Catatan: VM Optane hanya dapat dibuat di zona us-central1-f, hanya dengan jenis mesinn1-highmem-96-aep, dan hanya di project yang disetujui. | 
| dataproc: | dataproc.await-new-workers-service-registration | trueataufalse | Properti ini tersedia di gambar 2.0.49+. Nilai defaultnya adalah false. Tetapkan properti ini ketrueuntuk menunggu pekerja primer baru mendaftarkan pemimpin layanan, seperti HDFS NameNode dan YARN ResourceManager, selama pembuatan cluster atau penskalaan cluster (hanya layanan HDFS dan YARN yang dipantau). Jika disetel ketrue, jika pekerja baru gagal mendaftar ke layanan, pekerja tersebut akan diberi statusFAILED. Pekerja yang gagal akan dihapus jika cluster sedang di-scaling up. Jika cluster sedang dibuat, pekerja yang gagal akan dihapus jika tandagcloud dataproc clusters create --action-on-failed-primary-workers=DELETEatau kolom APIactionOnFailedPrimaryWorkers=DELETEditentukan sebagai bagian dari perintahgcloudatau permintaan pembuatan cluster API. | 
| dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings | Properti ini mengambil daftar pemetaan pengguna ke akun layanan. Pengguna yang dipetakan dapat mengirimkan beban kerja interaktif ke cluster dengan identitas pengguna yang terisolasi (lihat Multi-tenancy yang aman berbasis akun layanan Dataproc). | 
| dataproc: | dataproc.cluster.caching.enabled | trueataufalse | Jika penyimpanan cache cluster diaktifkan, cluster akan menyimpan cache data Cloud Storage yang diakses oleh tugas Spark, sehingga meningkatkan performa tugas tanpa mengorbankan konsistensi. (default: false). | 
| dataproc | dataproc.cluster-ttl.consider-yarn-activity | trueataufalse | Jika disetel ke true, Penghapusan Terjadwal Cluster akan mempertimbangkan aktivitas YARN dan Dataproc Jobs API saat menghitung waktu tidak ada aktivitas cluster. Jika disetel kefalse, hanya aktivitas Dataproc Jobs API yang dipertimbangkan. (default:true). Untuk mengetahui informasi selengkapnya, lihat Penghitungan waktu tidak ada aktivitas cluster. | 
| dataproc | dataproc.conscrypt.provider.enable | trueataufalse | Mengaktifkan ( true) atau menonaktifkan (false) Conscrypt sebagai penyedia keamanan Java utama. Catatan: Conscrypt diaktifkan secara default di Dataproc 1.2 dan yang lebih tinggi, tetapi dinonaktifkan di 1.0/1.1. | 
| dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings | Properti ini menggunakan daftar pemetaan pengguna ke akun layanan yang dipisahkan dengan koma. Jika cluster dibuat dengan properti ini yang ditetapkan, saat pengguna mengirimkan tugas, cluster akan mencoba meniru akun layanan yang sesuai saat mengakses Cloud Storage melalui konektor Cloud Storage. Fitur ini memerlukan konektor Cloud Storage versi 2.1.4atau yang lebih baru. Untuk mengetahui informasi selengkapnya, lihat Multi-tenancy kooperatif Dataproc. (default:empty). | 
| dataproc | dataproc.control.max.assigned.job.tasks | 100 | Properti ini membatasi jumlah tugas yang dapat dijalankan secara serentak di node master cluster. Jika jumlah tugas aktif melebihi batas tugas, tugas baru akan dimasukkan ke dalam antrean hingga tugas yang sedang berjalan selesai dan resource dibebaskan agar tugas baru dapat dijadwalkan. Catatan: Sebaiknya jangan menetapkan batas tugas default yang melebihi 100(default) karena dapat menyebabkan kondisi kehabisan memori di node master. | 
| dataproc | dataproc:hudi.version | Versi Hudi | Menetapkan versi Hudi yang digunakan dengan komponen Dataproc Hudi opsional. Catatan: Versi ini ditetapkan oleh Dataproc agar kompatibel dengan versi image cluster. Jika ditetapkan oleh pengguna, pembuatan cluster dapat gagal jika versi yang ditentukan tidak kompatibel dengan image cluster. | 
| dataproc | dataproc.lineage.enabled | true | Mengaktifkan asal-usul data di cluster Dataproc untuk tugas Spark. | 
| dataproc | dataproc.localssd.mount.enable | trueataufalse | Apakah akan memasang SSD lokal sebagai direktori sementara Hadoop/Spark dan direktori data HDFS (default: true). | 
| dataproc | dataproc.logging.extended.enabled | trueataufalse | Mengaktifkan ( true) atau menonaktifkan (false) log di Cloud Logging untuk berikut ini:knox,zeppelin,ranger-usersync,jupyter_notebook,jupyter_kernel_gateway, danspark-history-server(default:true). Untuk mengetahui informasi selengkapnya, lihat Log cluster Dataproc di Logging. | 
| dataproc | dataproc.logging.stackdriver.enable | trueataufalse | Mengaktifkan ( true) atau menonaktifkan (false) Cloud Logging (default:true). Lihat Harga Cloud Logging untuk biaya terkait. | 
| dataproc | dataproc.logging.stackdriver.job.driver.enable | trueataufalse | Mengaktifkan ( true) atau menonaktifkan (false) log driver tugas Dataproc di Cloud Logging. Lihat output dan log tugas Dataproc (default:false). | 
| dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | trueataufalse | Mengaktifkan ( true) atau menonaktifkan (false) log container YARN di Cloud Logging. Lihat Opsi output tugas Spark. (default:false). | 
| dataproc | dataproc.logging.syslog.enabled | trueataufalse | Mengaktifkan ( true) atau menonaktifkan (false) syslog VM di Cloud Logging (default:true). | 
| dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICESatauRUN_AFTER_SERVICES | Untuk cluster image 2.0+, jika disetel ke RUN_AFTER_SERVICES, tindakan inisialisasi pada master akan berjalan setelah HDFS dan layanan apa pun yang bergantung pada HDFS diinisialisasi. Contoh layanan yang bergantung pada HDFS mencakup: HBase, Hive Server2, Ranger, Solr, serta server histori Spark dan MapReduce.  (default:RUN_BEFORE_SERVICES). | 
| dataproc | dataproc.monitoring.stackdriver.enable | trueataufalse | Mengaktifkan ( true) atau menonaktifkan (false) Agen pemantauan (default:false). Properti ini tidak digunakan lagi. Lihat Mengaktifkan pengumpulan metrik kustom untuk mengaktifkan pengumpulan metrik OSS Dataproc di Monitoring. | 
| dataproc | dataproc.scheduler.driver-size-mb | number | Rata-rata jejak memori driver, yang menentukan jumlah maksimum tugas serentak yang akan dijalankan cluster. Nilai defaultnya adalah 1GB. Nilai yang lebih kecil, seperti256, mungkin cocok untuk tugas Spark. | 
| dataproc | dataproc.scheduler.job-submission-rate | number | Tugas akan dibatasi jika laju ini terlampaui. Tingkat defaultnya adalah 1.0QPS. | 
| dataproc | dataproc.scheduler.max-concurrent-jobs | number | Jumlah maksimum tugas serentak. Jika nilai ini tidak ditetapkan saat cluster dibuat, batas atas untuk tugas serentak dihitung sebagai max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5).masterMemoryMbditentukan oleh jenis mesin VM master.masterMemoryMbPerJobadalah1024secara default, tetapi dapat dikonfigurasi saat pembuatan cluster dengan properti clusterdataproc:dataproc.scheduler.driver-size-mb. | 
| dataproc | dataproc.scheduler.max-memory-used | number | Jumlah maksimum RAM yang dapat digunakan. Jika penggunaan saat ini melebihi batas ini, tugas baru tidak dapat dijadwalkan. Defaultnya adalah 0.9(90%). Jika disetel ke1.0, throttling tugas master-memory-utilization akan dinonaktifkan. | 
| dataproc | dataproc.scheduler.min-free-memory.mb | number | Jumlah minimum memori kosong dalam megabyte yang diperlukan oleh driver tugas Dataproc untuk menjadwalkan tugas lain di cluster. Defaultnya adalah 256MB. | 
| dataproc | dataproc.snap.enabled | trueataufalse | Mengaktifkan atau menonaktifkan daemon Ubuntu Snap. Nilai defaultnya adalah true. Jika disetel kefalse, paket Snap yang telah diinstal sebelumnya di image tidak terpengaruh, tetapi pembaruan otomatis dinonaktifkan. Berlaku untuk image Ubuntu 1.4.71, 1.5.46, 2.0.20, dan yang lebih baru. | 
| dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES | Untuk cluster image pra-2.0, RUN_BEFORE_SERVICES tidak ditetapkan, tetapi dapat ditetapkan oleh pengguna saat cluster dibuat. Untuk cluster image 2.0+, RUN_BEFORE_SERVICES disetel, dan properti tidak dapat diteruskan ke cluster (tidak dapat diubah oleh pengguna). Untuk mengetahui informasi tentang efek setelan ini, lihat Pertimbangan dan panduan penting—Pemrosesan inisialisasi. | 
| dataproc | dataproc.yarn.orphaned-app-termination.enable | trueataufalse | Nilai defaultnya adalah true. Tetapkan kefalseuntuk mencegah Dataproc menghentikan aplikasi YARN "yang tidak memiliki induk". Dataproc menganggap aplikasi YARN sebagai tidak memiliki induk jika driver tugas yang mengirimkan aplikasi YARN telah keluar. Peringatan: Jika Anda menggunakan mode cluster Spark (spark.submit.deployMode=cluster) dan Anda menetapkanspark.yarn.submit.waitAppCompletion=false, driver Spark akan keluar tanpa menunggu aplikasi YARN selesai; dalam hal ini, tetapkandataproc:dataproc.yarn.orphaned-app-termination.enable=false. Tetapkan juga properti ini kefalsejika Anda mengirimkan tugas Hive. | 
| dataproc | diagnostic.capture.enabled | trueataufalse | Mengaktifkan pengumpulan data diagnostik titik pemeriksaan cluster. (default: true). | 
| dataproc | diagnostic.capture.access | GOOGLE_DATAPROC_DIAGNOSE | Jika disetel ke GOOGLE_DATAPROC_DIAGNOSE, data diagnostik checkpoint cluster, yang disimpan di Cloud Storage, akan dibagikan kepada dukungan Dataproc. (default: not set). | 
| dataproc | efm.spark.shuffle | primary-worker | Jika disetel ke primary-worker, data shuffle Spark akan ditulis ke pekerja utama". Lihat Mode Fleksibilitas yang Ditingkatkan Dataproc untuk mengetahui informasi selengkapnya. | 
| dataproc | job.history.to-gcs.enabled | trueataufalse | Mengizinkan file histori MapReduce dan Spark dipertahankan ke bucket sementara Dataproc (default: trueuntuk versi image 1.5+). Pengguna dapat mengganti lokasi persistensi file histori tugas melalui properti berikut:mapreduce.jobhistory.done-dir,mapreduce.jobhistory.intermediate-done-dir,spark.eventLog.dir, danspark.history.fs.logDirectory. Lihat Dataproc Persistent History Server  untuk mengetahui informasi tentang properti cluster ini dan properti lainnya yang terkait dengan histori tugas dan file peristiwa Dataproc. | 
| dataproc | jobs.file-backed-output.enable | trueataufalse | Mengonfigurasi tugas Dataproc untuk menyalurkan outputnya ke file sementara di direktori /var/log/google-dataproc-job. Harus ditetapkan ketrueuntuk mengaktifkan logging driver tugas di Cloud Logging (default:true). | 
| dataproc | jupyter.listen.all.interfaces | trueataufalse | Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk versi image 1.3+ adalah false, yang membatasi koneksi kelocalhost(127.0.0.1) saat Component Gateway diaktifkan (aktivasi Component Gateway tidak diperlukan untuk image 2.0+). Setelan default ini dapat diganti dengan menyetel properti ini ketrueuntuk mengizinkan semua koneksi. | 
| dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> | Lokasi di Cloud Storage untuk menyimpan notebook Jupyter. | 
| dataproc | kerberos.beta.automatic-config.enable | trueataufalse | Jika disetel ke true, pengguna tidak perlu menentukan sandi utama root Kerberos dengan tanda--kerberos-root-principal-passworddan--kerberos-kms-key-uri(default:false). Lihat Mengaktifkan Mode Aman Hadoop melalui Kerberos untuk mengetahui informasi selengkapnya. | 
| dataproc | kerberos.cross-realm-trust.admin-server | hostname/address | hostname/alamat server admin jarak jauh (sering kali sama dengan server KDC). | 
| dataproc | kerberos.cross-realm-trust.kdc | hostname/address | hostname/alamat KDC jarak jauh. | 
| dataproc | kerberos.cross-realm-trust.realm | realm name | Nama realm dapat terdiri dari string ASCII HURUF BESAR apa pun. Biasanya, nama realm sama dengan nama domain DNS Anda (dalam huruf BESAR). Contoh: Jika komputer diberi nama "machine-id.example.west-coast.mycompany.com", realm terkait dapat ditetapkan sebagai "EXAMPLE.WEST-COAST.MYCOMPANY.COM". | 
| dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> | Lokasi di Cloud Storage untuk sandi bersama yang dienkripsi KMS. | 
| dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> | Lokasi di Cloud Storage dari file yang dienkripsi KMS yang berisi kunci master database KDC. | 
| dataproc | kerberos.key.password.uri | gs://<dir-path> | Lokasi di Cloud Storage untuk file yang dienkripsi KMS yang berisi sandi kunci di file keystore. | 
| dataproc | kerberos.keystore.password.uri | gs://<dir-path> | Lokasi di Cloud Storage untuk file terenkripsi KMS yang berisi sandi keystore. | 
| dataproc | kerberos.keystore.uri1 | gs://<dir-path> | Lokasi di Cloud Storage dari file keystore yang berisi sertifikat karakter pengganti dan kunci pribadi yang digunakan oleh node cluster. | 
| dataproc | kerberos.kms.key.uri | KMS key URI | URI kunci KMS yang digunakan untuk mendekripsi sandi root, misalnya projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key(lihat ID resource kunci). | 
| dataproc | kerberos.root.principal.password.uri | gs://<dir-path> | Lokasi di Cloud Storage untuk sandi terenkripsi KMS bagi utama root Kerberos. | 
| dataproc | kerberos.tgt.lifetime.hours | hours | Masa berlaku maksimum tiket autentikasi. | 
| dataproc | kerberos.truststore.password.uri | gs://<dir-path> | Lokasi di Cloud Storage untuk file yang dienkripsi dengan KMS yang berisi sandi ke file truststore. | 
| dataproc | kerberos.truststore.uri2 | gs://<dir-path> | Lokasi di Cloud Storage dari file truststore yang dienkripsi KMS yang berisi sertifikat tepercaya. | 
| dataproc | pip.packages | Paket pip | Properti ini mengambil daftar paket Pip yang dipisahkan koma dengan versi tertentu, yang akan diinstal di lingkungan Conda base. Untuk mengetahui informasi selengkapnya, lihat Properti Cluster terkait Conda. (default:empty). | 
| dataproc | ranger.kms.key.uri | KMS key URI | URI kunci KMS yang digunakan untuk mendekripsi sandi pengguna admin Ranger, misalnya projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key(lihat ID resource kunci). | 
| dataproc | ranger.admin.password.uri | gs://<dir-path> | Lokasi di Cloud Storage dari sandi terenkripsi KMS untuk pengguna admin Ranger. | 
| dataproc | ranger.db.admin.password.uri | gs://<dir-path> | Lokasi di Cloud Storage untuk sandi terenkripsi KMS bagi pengguna admin database Ranger. | 
| dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name | Nama koneksi instance Cloud SQL, misalnya project-id:region:name. | 
| dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> | Lokasi di Cloud Storage dari sandi terenkripsi KMS untuk pengguna root instance Cloud SQL. | 
| dataproc | ranger.cloud-sql.use-private-ip | trueataufalse | Apakah komunikasi antara instance cluster dan instance Cloud SQL harus dilakukan melalui IP pribadi (nilai defaultnya adalah false). | 
| dataproc | solr.gcs.path | gs://<dir-path> | Jalur Cloud Storage yang akan bertindak sebagai direktori beranda Solr. | 
| dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds | Durasi waktu skrip startup Dataproc akan menunggu hadoop-hdfs-namenode terikat ke port sebelum memutuskan bahwa startup-nya berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit). | 
| dataproc | startup.component.service-binding-timeout.hive-metastore | seconds | Jumlah waktu yang akan ditunggu oleh skrip startup Dataproc agar layanan hive-metastore terikat ke port sebelum memutuskan bahwa startup-nya berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit). | 
| dataproc | startup.component.service-binding-timeout.hive-server2 | seconds | Jumlah waktu yang akan digunakan skrip startup Dataproc untuk menunggu hive-server2 terikat ke port sebelum memutuskan bahwa startup-nya berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit). | 
| dataproc | user-attribution.enabled | trueataufalse | Tetapkan properti ini ke trueuntuk mengatribusikan tugas Dataproc ke identitas pengguna yang mengirimkannya (nilai defaultnya adalahfalse). | 
| dataproc | yarn.docker.enable | trueataufalse | Tetapkan ke trueuntuk mengaktifkan fitur Dataproc Docker di YARN (nilai defaultnya adalahfalse). | 
| dataproc | yarn.docker.image | docker image | Saat mengaktifkan fitur Dataproc Docker di YARN ( dataproc:yarn.docker.enable=true), Anda dapat menggunakan properti opsional ini untuk menentukan image Docker Anda (misalnya,dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1). Jika ditentukan, image akan didownload dan di-cache di semua node cluster selama pembuatan cluster. | 
| dataproc | yarn.log-aggregation.enabled | trueataufalse | Mengizinkan ( true) mengaktifkan agregasi log YARN ketemp bucketcluster. Nama bucket memiliki format berikut:dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>. (default:trueuntuk versi image 1.5+). Catatan: Bucket sementara cluster tidak dihapus saat cluster dihapus. Pengguna juga dapat menyetel lokasi log YARN gabungan dengan mengganti properti YARNyarn.nodemanager.remote-app-log-dir. | 
| knox | gateway.host | ip address | Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk versi image 1.3+ adalah 127.0.0.1, yang membatasi koneksi kelocalhostsaat Component Gateway diaktifkan. Setelan default dapat diganti, misalnya dengan menyetel properti ini ke0.0.0.0untuk mengizinkan semua koneksi. | 
| zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> | Lokasi di Cloud Storage untuk menyimpan notebook Zeppelin. | 
| zeppelin | zeppelin.server.addr | ip address | Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk versi image 1.3+ adalah 127.0.0.1, yang membatasi koneksi kelocalhostsaat Component Gateway diaktifkan. Setelan default ini dapat diganti, misalnya dengan menyetel properti ini ke0.0.0.0untuk mengizinkan semua koneksi. | 
1File keystore: File keystore berisi sertifikat SSL. File harus dalam format Java KeyStore (JKS). Saat disalin ke VM, file ini akan diganti namanya menjadi keystore.jks.
Sertifikat SSL harus berupa sertifikat pengganti yang berlaku untuk setiap node dalam cluster.
2File truststore: File truststore harus dalam format Java KeyStore (JKS). Saat disalin ke VM, file tersebut akan diganti namanya menjadi
truststore.jks.