Properti cluster

Komponen open source yang diinstal pada cluster Dataproc berisi banyak file konfigurasi. Misalnya, Apache Spark dan Apache Hadoop memiliki beberapa file konfigurasi XML dan teks biasa. Anda dapat menggunakan flag ‑‑properties dari perintah gcloud dataproc clusters create untuk mengubah banyak file konfigurasi umum saat membuat cluster.

Pemformatan

Flag gcloud dataproc clusters create --properties menerima format string berikut:

file_prefix1:property1=value1,file_prefix2:property2=value2,...
  • file_prefix dipetakan ke file konfigurasi yang telah ditentukan seperti yang ditunjukkan pada tabel di bawah, dan property dipetakan ke properti dalam file.

  • Pemisah default yang digunakan untuk memisahkan beberapa properti cluster adalah koma (,). Namun, jika tanda koma disertakan dalam nilai properti, Anda harus mengubah pembatas dengan menentukan "^delimiter^" di awal daftar properti (lihat gcloud topic escaping untuk mengetahui informasi selengkapnya).

    • Contoh penggunaan pembatas "#":
      --properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
      

Contoh

Perintah gcloud

Untuk mengubah setelan spark.master di file spark-defaults.conf, tambahkan flag gcloud dataproc clusters create --properties berikut:

--properties 'spark:spark.master=spark://example.com'

Anda dapat mengubah beberapa properti sekaligus, dalam satu atau beberapa file konfigurasi, dengan menggunakan pemisah koma. Setiap properti harus ditentukan dalam format file_prefix:property=value lengkap. Misalnya, untuk mengubah setelan spark.master di file spark-defaults.conf dan setelan dfs.hosts di file hdfs-site.xml, gunakan flag --propertiesberikut saat membuat cluster:

--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'

REST API

Untuk menetapkan spark.executor.memory ke 10g, masukkan setelan properties berikut di bagian SoftwareConfig pada permintaan clusters.create Anda:

"properties": {
  "spark:spark.executor.memory": "10g"
}

Cara mudah untuk melihat cara membuat isi JSON dari permintaan REST cluster Dataproc API adalah dengan memulai perintah gcloud yang setara menggunakan flag --log-http. Berikut adalah contoh perintah gcloud dataproc clusters create, yang menetapkan properti cluster dengan flag --properties spark:spark.executor.memory=10g. Log stdout menampilkan isi permintaan REST yang dihasilkan (cuplikan properties ditampilkan di bawah):

gcloud dataproc clusters create my-cluster \
    --region=region \
    --properties=spark:spark.executor.memory=10g \
    --log-http \
    other args ...

Output:

...
== body start ==
{"clusterName": "my-cluster", "config": {"gceClusterConfig": ...
"masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},

... == body end == ...

Pastikan untuk membatalkan perintah setelah isi JSON muncul di output jika Anda tidak ingin perintah diterapkan.

Konsol

Untuk mengubah setelan spark.master dalam file spark-defaults.conf:

  1. Di Konsol Google Cloud, buka halaman Buat cluster Dataproc. Klik panel Customize cluster, lalu scroll ke bagian Properti cluster.

  2. Klik + TAMBAHKAN PROPERTI. Pilih spark di daftar Prefix, lalu tambahkan "spark.master" di kolom Kunci dan setelan di kolom Value.

Properti cluster vs. tugas

Apache Hadoop YARN, HDFS, Spark, dan properti berawalan file lainnya diterapkan di tingkat cluster saat Anda membuat cluster. Properti ini tidak dapat diterapkan ke cluster setelah pembuatan cluster. Namun, banyak dari properti ini yang juga dapat diterapkan ke pekerjaan tertentu. Saat menerapkan properti ke suatu tugas, awalan file tidak digunakan.

Contoh berikut menetapkan memori eksekutor Spark ke 4g untuk tugas Spark (awalan spark: dihilangkan).

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=spark.executor.memory=4g \
    ... other args ...

Properti tugas dapat dikirim dalam file menggunakan flag gcloud dataproc jobs submit job-type --properties-file (lihat, misalnya, deskripsi --properties-file untuk pengiriman tugas Hadoop).

gcloud dataproc jobs submit JOB_TYPE \
    --region=region \
    --properties-file=PROPERTIES_FILE \
    ... other args ...

PROPERTIES_FILE adalah kumpulan pasangan key=value yang dipisahkan baris. Properti yang akan ditetapkan adalah key, dan nilai yang akan ditetapkan ke properti ini adalah value. Lihat class java.util.Properties untuk deskripsi mendetail tentang format file properti.

Berikut adalah contoh file properti yang dapat diteruskan ke flag --properties-file saat mengirimkan tugas Dataproc.

 dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml
 spark:spark.history.fs.logDirectory=gs://some-bucket
 spark:spark.eventLog.dir=gs://some-bucket
 capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5

Tabel properti berawalan file

Awalan file File Tujuan file
penjadwal kapasitas capacity-scheduler.xml Konfigurasi Penjadwal Kapasitas YARN Hadoop
bagian tengah tubuh core-site.xml Konfigurasi umum Hadoop
distcp {i>distcp-default.xml<i} Konfigurasi Salinan Terdistribusi Hadoop
flink flink-conf.yaml Konfigurasi flink
flink-log4j log4j.properties File setelan Log4j
hadoop-env hadoop-env.sh Variabel lingkungan khusus Hadoop
hadoop-log4j log4j.properties File setelan Log4j
hbase hbase-site.xml Konfigurasi HBase
hbase-log4j log4j.properties File setelan Log4j
hdfs hdfs-site.xml Konfigurasi HDFS Hadoop
sarang lebah hive-site.xml Konfigurasi Hive
hive-log4j2 hive-log4j2.properties File setelan Log4j
Hudi {i>hudi-default.conf<i} Konfigurasi Hudi
mapred mapred-site.xml Konfigurasi MapReduce Hadoop
mapred-env mapred-env.sh Variabel lingkungan tertentu Haadoop MapReduce
babi pig.properties Konfigurasi babi
pig-log4j log4j.properties File setelan Log4j
Presto config.properties Konfigurasi Presto
presto-jvm jvm.config Konfigurasi JVM khusus presto
spark spark-defaults.conf Konfigurasi Spark
spark-env spark-env.sh Membuat variabel lingkungan khusus
spark-log4j log4j.properties File setelan Log4j
tez tez-site.xml Konfigurasi Tez
webcat-log4j webhcat-log4j2.properties File setelan Log4j
benang yarn-site.xml Konfigurasi Haadoop YARN
yarn-env yarn-env.sh Variabel lingkungan khusus Haadoop YARN
zeppelin zeppelin-site.xml Konfigurasi Zeppelin
zeppelin-env zeppelin-env.sh Variabel lingkungan khusus Zeppelin (Khusus Komponen Opsional)
zeppelin-log4j log4j.properties File setelan Log4j
zookeeper zoo.cfg Konfigurasi Zookeeper
zookeeper-log4j log4j.properties File setelan Log4j

Catatan

  • Beberapa properti dicadangkan dan tidak dapat diganti karena memengaruhi fungsi cluster Dataproc. Jika mencoba mengubah properti yang dicadangkan, Anda akan menerima pesan error saat membuat cluster.
  • Anda dapat menentukan beberapa perubahan dengan memisahkan setiap perubahan menggunakan koma.
  • Tanda --properties tidak dapat mengubah file konfigurasi yang tidak ditampilkan di atas.
  • Perubahan pada properti akan diterapkan sebelum daemon di cluster Anda dimulai.
  • Jika ada, properti yang ditentukan akan diperbarui. Jika properti yang ditentukan tidak ada, properti tersebut akan ditambahkan ke file konfigurasi.

Properti layanan Dataproc

Properti yang tercantum di bagian ini dikhususkan untuk Dataproc. Properti ini dapat digunakan untuk mengonfigurasi fungsi cluster Dataproc Anda lebih lanjut.

Pemformatan

Flag gcloud dataproc clusters create --properties menerima format string berikut:

property_prefix1:property1=value1,property_prefix2:property2=value2,...
  • Pemisah default yang digunakan untuk memisahkan beberapa properti cluster adalah koma (,). Namun, jika tanda koma disertakan dalam nilai properti, Anda harus mengubah pembatas dengan menentukan "^delimiter^" di awal daftar properti (lihat gcloud topic escaping untuk mengetahui informasi selengkapnya).

    • Contoh penggunaan pembatas "#":
      --properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
      

Contoh:

Buat cluster dan tetapkan Enhanced Flexibility Mode ke mode acak pekerja utama Spark.

gcloud dataproc jobs submit spark \
    --region=region \
    --properties=dataproc:efm.spark.shuffle=primary-worker \
    ... other args ...

Tabel properti layanan Dataproc

Awalan properti Properti Nilai Deskripsi
dataproc agent.process.threads.job.min number Dataproc menjalankan driver tugas pengguna secara serentak dalam kumpulan thread. Properti ini mengontrol jumlah minimum thread dalam kumpulan thread untuk startup cepat bahkan saat tidak ada tugas yang berjalan (default: 10).
dataproc agent.process.threads.job.max number Dataproc menjalankan driver tugas pengguna secara serentak dalam kumpulan thread. Properti ini mengontrol jumlah maksimum thread dalam kumpulan thread, sehingga membatasi konkurensi maksimum tugas pengguna. Tingkatkan nilai ini untuk konkurensi yang lebih tinggi (default: 100).
dataproc am.primary_only true atau false Tetapkan properti ini ke true untuk mencegah master aplikasi berjalan di preemptible worker cluster Dataproc. Catatan: Fitur ini hanya tersedia di Dataproc 1.2 dan yang lebih baru. Nilai defaultnya adalah false.
dataproc conda.env.config.uri gs://<path> Lokasi di Cloud Storage file konfigurasi lingkungan Conda. Lingkungan Conda baru akan dibuat dan diaktifkan berdasarkan file ini. Untuk informasi selengkapnya, lihat Menggunakan properti Cluster terkait Conda. (default: empty).
dataproc conda.packages Paket conda Properti ini menggunakan daftar paket Conda yang dipisahkan koma dengan versi tertentu untuk diinstal di lingkungan Conda base. Untuk informasi selengkapnya, lihat Menggunakan properti Cluster terkait Conda. (default: empty).
dataproc dataproc.allow.zero.workers true atau false Tetapkan properti SoftwareConfig ini ke true dalam permintaan API clusters.create Dataproc untuk membuat Cluster node tunggal, yang mengubah jumlah default pekerja dari 2 menjadi 0, dan menempatkan komponen pekerja di host master. Cluster node tunggal juga dapat dibuat dari Google Cloud Console atau dengan Google Cloud CLI dengan menetapkan jumlah pekerja ke 0.
dataproc dataproc.alpha.master.nvdimm.size.gb 1500-6500 Menetapkan nilai akan membuat master Dataproc dengan memori Persisten Intel Optane DC. Catatan: Optane VM hanya dapat dibuat di zona us-central1-f, hanya dengan jenis mesin n1-highmem-96-aep dan hanya di bagian project yang diizinkan.
dataproc: dataproc.alpha.worker.nvdimm.size.gb 1500-6500 Menetapkan nilai akan membuat pekerja Dataproc dengan Memori Persisten Intel Optane DC. Catatan: Optane VM hanya dapat dibuat di zona us-central1-f, hanya dengan jenis mesin n1-highmem-96-aep dan hanya di bagian project yang diizinkan.
dataproc: dataproc.await-new-workers-service-registration true atau false Properti ini tersedia pada gambar 2.0.49+. Nilai defaultnya adalah false. Setel properti ini ke true untuk menunggu pekerja utama baru mendaftarkan pemimpin layanan, seperti HDFS NameNode dan YARN ResourceManager, selama pembuatan cluster atau peningkatan skala cluster (hanya layanan HDFS dan YARN yang dipantau). Jika ditetapkan ke true, jika pekerja baru gagal mendaftar ke layanan, pekerja tersebut akan diberi status FAILED. Pekerja yang gagal akan dihapus jika skala cluster ditingkatkan. Jika cluster sedang dibuat, pekerja yang gagal akan dihapus jika flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE atau kolom API actionOnFailedPrimaryWorkers=DELETE ditentukan sebagai bagian dari perintah gcloud atau permintaan pembuatan cluster API.
dataproc: dataproc.beta.secure.multi-tenancy.user.mapping user-to-service account mappings Properti ini menggunakan daftar pemetaan akun antarlayanan. Pengguna yang dipetakan dapat mengirim beban kerja interaktif ke cluster dengan identitas pengguna yang terisolasi (lihat Multi-tenancy Aman Berbasis Akun Layanan Dataproc).
dataproc: dataproc.cluster.caching true atau false Ketika cache cluster diaktifkan, cluster akan meng-cache data Cloud Storage yang diakses oleh tugas Spark, yang meningkatkan performa tugas tanpa mengorbankan konsistensi. (default: false).
dataproc dataproc.cluster-ttl.consider-yarn-activity true atau false Untuk versi gambar 1.4.64+, 1.5.39+, dan 2.0.13+, nilai default true untuk properti ini akan menyebabkan Penghapusan Terjadwal Cluster mempertimbangkan aktivitas YARN, selain aktivitas Dataproc Jobs API, saat menentukan waktu tidak ada aktivitas cluster. Jika ditetapkan ke false untuk versi gambar 1.4.64+, 1.5.39+, dan 2.0.13+, atau saat menggunakan gambar dengan nomor versi yang lebih rendah, hanya aktivitas Dataproc Jobs API yang dipertimbangkan. Nilai defaultnya adalah true untuk versi gambar 1.4.64+, 1.5.39+, dan 2.0.13+.
dataproc dataproc.conscrypt.provider.enable true atau false Mengaktifkan (true) atau menonaktifkan (false) Conscrypt sebagai penyedia keamanan Java utama. Catatan: Conscrypt diaktifkan secara default di Dataproc 1.2 dan yang lebih baru, tetapi dinonaktifkan pada 1.0/1.1.
dataproc dataproc.cooperative.multi-tenancy.user.mapping user-to-service account mappings Properti ini menggunakan daftar pemetaan akun pengguna-ke-layanan yang dipisahkan koma. Jika sebuah cluster dibuat dengan properti ini ditetapkan, ketika pengguna mengirimkan tugas, cluster tersebut akan berupaya meniru akun layanan terkait saat mengakses Cloud Storage melalui konektor Cloud Storage. Fitur ini memerlukan konektor Cloud Storage versi 2.1.4 atau yang lebih tinggi. Untuk mengetahui informasi selengkapnya, lihat Multi-tenancy kerja sama Dataproc. (default: empty).
dataproc dataproc:hudi.version Versi Hudi Menetapkan versi Hudi yang digunakan dengan komponen Dataproc Hudi opsional. Catatan: Versi ini ditetapkan oleh Dataproc agar kompatibel dengan versi image cluster. Jika ditetapkan oleh pengguna, pembuatan cluster dapat gagal jika versi yang ditentukan tidak kompatibel dengan image cluster.
dataproc dataproc.lineage.enabled true Mengaktifkan silsilah data di cluster Dataproc untuk tugas Spark.
dataproc dataproc.localssd.mount.enable true atau false Apakah akan memasang SSD lokal sebagai direktori sementara Hadoop/Spark dan direktori data HDFS (default: true).
dataproc dataproc.logging.stackdriver.enable true atau false Mengaktifkan (true) atau menonaktifkan (false) Cloud Logging (default: true). Lihat Harga Cloud Logging untuk mengetahui tagihan terkait.
dataproc dataproc.logging.stackdriver.job.driver.enable true atau false Mengaktifkan (true) atau menonaktifkan (false) log driver tugas Dataproc di Cloud Logging. Lihat Output dan log tugas Dataproc (default: false).
dataproc dataproc.logging.stackdriver.job.yarn.container.enable true atau false Mengaktifkan (true) atau menonaktifkan (false) log penampung YARN di Cloud Logging. Lihat Opsi output tugas Spark. (default: false).
dataproc dataproc.master.custom.init.actions.mode RUN_BEFORE_SERVICES atau RUN_AFTER_SERVICES Untuk lebih dari 2 cluster gambar, saat disetel ke RUN_AFTER_SERVICES, tindakan inisialisasi pada master akan berjalan setelah HDFS dan layanan apa pun yang bergantung pada HDFS diinisialisasi. Contoh layanan yang bergantung pada HDFS meliputi: HBase, Hive Server2, Ranger, Solr, serta server histori Spark dan MapReduce. (default: RUN_BEFORE_SERVICES).
dataproc dataproc.monitoring.stackdriver.enable true atau false Mengaktifkan (true) atau menonaktifkan (false) Agen pemantauan (default: false). Properti ini tidak digunakan lagi. Lihat Mengaktifkan pengumpulan metrik kustom untuk mengaktifkan pengumpulan pengumpulan metrik Dataproc OSS di Monitoring.
dataproc dataproc.scheduler.driver-size-mb number Jejak memori driver rata-rata, yang menentukan jumlah maksimum tugas serentak yang akan dijalankan oleh cluster. Nilai defaultnya adalah 1GB. Nilai yang lebih kecil, seperti 256, mungkin sesuai untuk tugas Spark.
dataproc dataproc.scheduler.job-submission-rate number Tugas akan dibatasi jika frekuensi ini terlampaui. Frekuensi defaultnya adalah 1.0 QPS.
dataproc dataproc.scheduler.max-concurrent-jobs number Jumlah maksimum tugas serentak. Jika nilai ini tidak disetel saat cluster dibuat, batas atas tugas serentak dihitung sebagai max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5). masterMemoryMb ditentukan oleh jenis mesin VM master. masterMemoryMbPerJob ditetapkan ke 1024 secara default, tetapi dapat dikonfigurasi saat pembuatan cluster dengan properti cluster dataproc:dataproc.scheduler.driver-size-mb.
dataproc dataproc.scheduler.max-memory-used number Jumlah maksimum RAM yang dapat digunakan. Jika penggunaan saat ini di atas ambang batas ini, tugas baru tidak dapat dijadwalkan. Nilai defaultnya adalah 0.9 (90%). Jika ditetapkan ke 1.0, throttling tugas pemanfaatan memori master akan dinonaktifkan.
dataproc dataproc.scheduler.min-free-memory.mb number Jumlah minimum memori bebas dalam megabyte yang diperlukan oleh driver tugas Dataproc untuk menjadwalkan tugas lain di cluster. Defaultnya adalah 256 MB.
dataproc dataproc.snap.enabled true atau false Mengaktifkan atau menonaktifkan daemon Snap Ubuntu. Nilai defaultnya adalah true. Jika disetel ke false, paket Snap yang telah diinstal sebelumnya dalam gambar tidak akan terpengaruh, tetapi refresh otomatis dinonaktifkan. Berlaku untuk image Ubuntu 1.4.71, 1.5.46, 2.0.20 dan yang lebih baru.
dataproc dataproc.worker.custom.init.actions.mode RUN_BEFORE_SERVICES Untuk cluster gambar versi sebelum 2.0, RUN_PREVIOUS_SERVICES tidak ditetapkan, tetapi dapat ditetapkan oleh pengguna saat cluster dibuat. Untuk lebih dari 2 cluster gambar, RUN_BEFORE_SERVICES telah ditetapkan, dan properti tidak dapat diteruskan ke cluster (properti tidak dapat diubah oleh pengguna). Untuk mengetahui informasi tentang pengaruh setelan ini, lihat Pertimbangan dan panduan penting—Pemrosesan inisialisasi.
dataproc dataproc.yarn.orphaned-app-termination.enable true atau false Nilai defaultnya adalah true. Setel ke false untuk mencegah Dataproc menghentikan aplikasi YARN yang "usang". Dataproc menganggap aplikasi YARN sudah usang jika driver tugas yang mengirimkan aplikasi YARN telah keluar. Peringatan: Jika Anda menggunakan mode cluster Spark (spark.submit.deployMode=cluster) dan menetapkan spark.yarn.submit.waitAppCompletion=false, driver Spark akan keluar tanpa menunggu aplikasi YARN selesai; dalam hal ini, setel dataproc:dataproc.yarn.orphaned-app-termination.enable=false. Tetapkan juga properti ini ke false jika Anda mengirimkan lowongan Hive.
dataproc efm.spark.shuffle primary-worker Jika ditetapkan ke primary-worker, data acak Spark akan ditulis ke pekerja utama". Lihat Mode Fleksibilitas yang Ditingkatkan Dataproc untuk mengetahui informasi selengkapnya.
dataproc job.history.to-gcs.enabled true atau false Mengizinkan file histori MapReduce dan Spark yang dipertahankan pada bucket sementara Dataproc (default: true untuk versi gambar 1.5+). Pengguna dapat menimpa lokasi persistensi file histori tugas melalui properti berikut: mapreduce.jobhistory.done-dir, mapreduce.jobhistory.intermediate-done-dir, spark.eventLog.dir, dan spark.history.fs.logDirectory. Lihat Server Histori Persisten Dataproc untuk mengetahui informasi tentang properti ini dan properti cluster lainnya yang terkait dengan file peristiwa dan histori tugas Dataproc.
dataproc jobs.file-backed-output.enable true atau false Mengonfigurasi tugas Dataproc untuk menyalurkan outputnya ke file sementara di direktori /var/log/google-dataproc-job. Harus ditetapkan ke true untuk mengaktifkan logging driver tugas di Cloud Logging (default: true).
dataproc jupyter.listen.all.interfaces true atau false Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk image versi 1.3+ adalah false, yang membatasi koneksi ke localhost (127.0.0.1) saat Gateway Komponen diaktifkan (Aktivasi Gateway Komponen tidak diperlukan untuk image 2.0 dan yang lebih baru). Setelan default ini dapat diganti dengan menyetel properti ini ke true untuk mengizinkan semua koneksi.
dataproc jupyter.notebook.gcs.dir gs://<dir-path> Lokasi di Cloud Storage untuk menyimpan notebook Jupyter.
dataproc kerberos.beta.automatic-config.enable true atau false Jika ditetapkan ke true, pengguna tidak perlu menentukan sandi utama root Kerberos dengan flag --kerberos-root-principal-password dan --kerberos-kms-key-uri (default: false). Lihat Mengaktifkan Hadoop Secure Mode melalui Kerberos untuk informasi lebih lanjut.
dataproc kerberos.cross-realm-trust.admin-server hostname/address nama host/alamat server admin jarak jauh (sering kali sama dengan server KDC).
dataproc kerberos.cross-realm-trust.kdc hostname/address nama host/alamat KDC jarak jauh.
dataproc kerberos.cross-realm-trust.realm realm name Nama realm dapat terdiri dari string ASCII HURUF BESAR apa pun. Biasanya, nama realm sama dengan nama domain DNS Anda (HURUF BESAR). Contoh: Jika mesin diberi nama "machine-id.example.west-coast.mycompany.com", lingkup terkait dapat ditetapkan sebagai "EXAMPLE.WEST-COAST.MYCOMPANY.COM".
dataproc kerberos.cross-realm-trust.shared-password.uri gs://<dir-path> Lokasi di Cloud Storage sandi bersama yang dienkripsi dengan KMS.
dataproc kerberos.kdc.db.key.uri gs://<dir-path> Lokasi di Cloud Storage file yang dienkripsi dengan KMS yang berisi kunci master database KDC.
dataproc kerberos.key.password.uri gs://<dir-path> Lokasi di Cloud Storage file yang dienkripsi dengan KMS yang berisi sandi kunci dalam file keystore.
dataproc kerberos.keystore.password.uri gs://<dir-path> Lokasi di Cloud Storage file yang dienkripsi dengan KMS yang berisi sandi keystore.
dataproc kerberos.keystore.uri1 gs://<dir-path> Lokasi di Cloud Storage file keystore yang berisi sertifikat karakter pengganti dan kunci pribadi yang digunakan oleh node cluster.
dataproc kerberos.kms.key.uri KMS key URI URI kunci KMS yang digunakan untuk mendekripsi sandi root, misalnya projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (lihat ID resource kunci).
dataproc kerberos.root.principal.password.uri gs://<dir-path> Lokasi di Cloud Storage sandi terenkripsi KMS untuk akun utama root Kerberos.
dataproc kerberos.tgt.lifetime.hours hours Masa aktif maksimum tiket {i>ticket granting ticket<i}.
dataproc kerberos.truststore.password.uri gs://<dir-path> Lokasi di Cloud Storage file terenkripsi KMS yang berisi sandi ke file truststore.
dataproc kerberos.truststore.uri2 gs://<dir-path> Lokasi di Cloud Storage file trust store terenkripsi KMS yang berisi sertifikat tepercaya.
dataproc pip.packages Paket Pip Properti ini menggunakan daftar paket Pip yang dipisahkan koma dengan versi tertentu, untuk diinstal di lingkungan Conda base. Untuk informasi selengkapnya, lihat Properti Cluster terkait Conda. (default: empty).
dataproc ranger.kms.key.uri KMS key URI URI kunci KMS yang digunakan untuk mendekripsi sandi pengguna admin Ranger, misalnya projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (lihat ID resource kunci).
dataproc ranger.admin.password.uri gs://<dir-path> Lokasi di Cloud Storage sandi terenkripsi KMS untuk pengguna admin Ranger.
dataproc ranger.db.admin.password.uri gs://<dir-path> Lokasi sandi yang dienkripsi dengan KMS di Cloud Storage untuk pengguna admin database Ranger.
dataproc ranger.cloud-sql.instance.connection.name cloud sql instance connection name Nama koneksi instance Cloud SQL, misalnya project-id:region:name.
dataproc ranger.cloud-sql.root.password.uri gs://<dir-path> Lokasi di Cloud Storage sandi yang dienkripsi dengan KMS untuk pengguna root instance Cloud SQL.
dataproc ranger.cloud-sql.use-private-ip true atau false Apakah komunikasi antara instance cluster dan instance Cloud SQL harus melalui IP pribadi (nilai defaultnya adalah false).
dataproc solr.gcs.path gs://<dir-path> Jalur Cloud Storage untuk bertindak sebagai direktori utama Solr.
dataproc startup.component.service-binding-timeout.hadoop-hdfs-namenode seconds Lamanya waktu skrip startup Dataproc akan menunggu Haoop-hdfs-namenode diikat ke port sebelum memutuskan bahwa startup-nya telah berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit).
dataproc startup.component.service-binding-timeout.hive-metastore seconds Lamanya waktu skrip startup Dataproc akan menunggu layanan hive-metastore untuk diikat ke port sebelum memutuskan bahwa startup-nya telah berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit).
dataproc startup.component.service-binding-timeout.hive-server2 seconds Durasi waktu skrip startup Dataproc akan menunggu hingga hive-server2 diikat ke port sebelum memutuskan bahwa startup-nya telah berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit).
dataproc atribusi pengguna.diaktifkan true atau false Tetapkan properti ini ke true untuk mengatribusikan tugas Dataproc ke identitas pengguna yang mengirimkannya (nilai default adalah false).
dataproc yarn.docker.enable true atau false Setel ke true untuk mengaktifkan fitur Dataproc Docker di YARN (nilai default adalah false).
dataproc yarn.docker.image docker image Saat mengaktifkan fitur Dataproc Docker di YARN (dataproc:yarn.docker.enable=true), Anda dapat menggunakan properti opsional ini untuk menentukan image docker (misalnya, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1). Jika ditentukan, gambar akan didownload dan di-cache di semua node cluster selama pembuatan cluster.
dataproc yarn.log-aggregation.enabled true atau false Mengizinkan (true) mengaktifkan agregasi log YARN ke temp bucket cluster. Nama bucket dengan bentuk berikut: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING>. (default: true untuk gambar versi 1.5+). Catatan: Bucket sementara cluster tidak akan dihapus saat cluster dihapus. Pengguna juga dapat menetapkan lokasi log YARN gabungan dengan menimpa properti YARN yarn.nodemanager.remote-app-log-dir.
Knox gateway.host ip address Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk gambar versi 1.3+ adalah 127.0.0.1, yang membatasi koneksi ke localhost saat Gateway Komponen diaktifkan. Setelan default dapat diganti, misalnya dengan menyetel properti ini ke 0.0.0.0 untuk mengizinkan semua koneksi.
zeppelin zeppelin.notebook.gcs.dir gs://<dir-path> Lokasi di Cloud Storage untuk menyimpan notebook Zeppelin.
zeppelin zeppelin.server.addr ip address Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk gambar versi 1.3+ adalah 127.0.0.1, yang membatasi koneksi ke localhost saat Gateway Komponen diaktifkan. Setelan default ini dapat diganti, misalnya dengan menyetel properti ini ke 0.0.0.0 untuk mengizinkan semua koneksi.

1File keystore: File keystore berisi sertifikat SSL. File tersebut harus dalam format Java KeyStore (JKS). Saat disalin ke VM, namanya diganti menjadi keystore.jks. Sertifikat SSL harus berupa sertifikat karakter pengganti yang berlaku untuk setiap node dalam cluster.

2File Truststore: File truststore harus dalam format Java KeyStore (JKS). Saat disalin ke VM, namanya akan diganti menjadi truststore.jks.