Apache Hadoop YARN, HDFS, Spark, dan properti terkait
Komponen open source yang diinstal di cluster Dataproc berisi banyak
file konfigurasi. Misalnya, Apache Spark dan Apache Hadoop memiliki beberapa file konfigurasi XML
dan teks biasa. Anda dapat menggunakan flag ‑‑properties
dari perintah gcloud dataproc clusters create untuk mengubah banyak file konfigurasi umum saat membuat cluster.
Pemformatan
Flag gcloud dataproc clusters create --properties
menerima format string
berikut:
file_prefix1:property1=value1,file_prefix2:property2=value2,...
file_prefix dipetakan ke file konfigurasi yang telah ditentukan seperti yang ditunjukkan dalam tabel di bawah, dan property dipetakan ke properti dalam file.
Pemisah default yang digunakan untuk memisahkan beberapa properti cluster adalah koma (,). Namun, jika koma disertakan dalam nilai properti, Anda harus mengubah pemisah dengan menentukan "^delimiter^" di awal daftar properti (lihat pengelakan topik gcloud untuk mengetahui informasi selengkapnya).
- Contoh menggunakan pemisah "#":
--properties ^#^file_prefix1:property1=part1,part2#file_prefix2:property2=value2
- Contoh menggunakan pemisah "#":
Contoh
perintah gcloud
Untuk mengubah setelan spark.master
di file spark-defaults.conf
, tambahkan flag gcloud dataproc clusters create --properties
berikut:
--properties 'spark:spark.master=spark://example.com'
Anda dapat mengubah beberapa properti sekaligus, dalam satu atau beberapa file konfigurasi,
menggunakan pemisah koma. Setiap properti harus ditentukan dalam format
file_prefix:property=value
lengkap. Misalnya, untuk mengubah
setelan spark.master
dalam file spark-defaults.conf
dan setelan dfs.hosts
dalam file hdfs-site.xml
,
gunakan flag --properties
berikut saat membuat cluster:
--properties 'spark:spark.master=spark://example.com,hdfs:dfs.hosts=/foo/bar/baz'
REST API
Untuk menetapkan spark.executor.memory
ke 10g
, masukkan
setelan properties
berikut di bagian
SoftwareConfig
dari permintaan
clusters.create Anda:
"properties": { "spark:spark.executor.memory": "10g" }
Cara mudah untuk melihat cara membuat isi JSON dari permintaan REST cluster Dataproc API adalah dengan memulai perintah gcloud
yang setara menggunakan tanda --log-http
.
Berikut adalah contoh perintah gcloud dataproc clusters create
, yang menetapkan properti cluster dengan flag --properties spark:spark.executor.memory=10g
.
Log stdout menampilkan isi permintaan REST yang dihasilkan (cuplikan properties
ditampilkan di bawah):
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=spark:spark.executor.memory=10g \ --log-http \ other args ...
Output:
... == body start == {"clusterName": "my-cluster", "config": {"gceClusterConfig": ... "masterConfig": {... "softwareConfig": {"properties": {"spark:spark.executor.memory": "10g"}},
... == body end == ...
Pastikan untuk membatalkan perintah setelah isi JSON muncul dalam output jika Anda tidak ingin perintah diterapkan.
Konsol
Untuk mengubah setelan spark.master
dalam
file spark-defaults.conf
:
- Di konsol Google Cloud, buka halaman Buat cluster Dataproc. Klik panel Sesuaikan cluster, lalu scroll ke bagian Properti cluster.
- Klik + TAMBAHKAN PROPERTI. Pilih spark dalam daftar Prefix, lalu tambahkan "spark.master" di kolom Key dan setelan di kolom Value.
Properti cluster vs. tugas
Apache Hadoop YARN, HDFS, Spark, dan properti lain dengan awalan file diterapkan di tingkat cluster saat Anda membuat cluster. Properti ini tidak dapat diterapkan ke cluster setelah pembuatan cluster. Namun, banyak properti ini juga dapat diterapkan ke tugas tertentu. Saat menerapkan properti ke tugas, awalan file tidak digunakan.
Contoh berikut menetapkan memori eksekutor Spark ke 4g untuk tugas Spark
(awalan spark:
dihilangkan).
gcloud dataproc jobs submit spark \ --region=REGION \ --properties=spark.executor.memory=4g \ other args ...
Properti tugas dapat dikirim dalam file menggunakan flag gcloud dataproc jobs submit job-type --properties-file
(lihat, misalnya, deskripsi --properties-file untuk pengiriman tugas Hadoop).
gcloud dataproc jobs submit JOB_TYPE \ --region=REGION \ --properties-file=PROPERTIES_FILE \ other args ...
PROPERTIES_FILE
adalah kumpulan
pasangan key
=value
yang dipisahkan baris. Properti yang akan ditetapkan adalah key
, dan nilai yang akan ditetapkan ke properti adalah value
. Lihat
class
java.util.Properties
untuk mengetahui deskripsi mendetail tentang format file properti.
Berikut adalah contoh file properti yang dapat
diteruskan ke tanda --properties-file
saat mengirimkan tugas Dataproc.
dataproc:conda.env.config.uri=gs://some-bucket/environment.yaml spark:spark.history.fs.logDirectory=gs://some-bucket spark:spark.eventLog.dir=gs://some-bucket capacity-scheduler:yarn.scheduler.capacity.root.adhoc.capacity=5
Tabel properti dengan awalan file
Awalan file | File | Tujuan file |
---|---|---|
capacity-scheduler | capacity-scheduler.xml | Konfigurasi Hadoop YARN Capacity Scheduler |
inti | core-site.xml | Konfigurasi umum Hadoop |
distcp | distcp-default.xml | Konfigurasi Salin Terdistribusi Hadoop |
flink | flink-conf.yaml | Konfigurasi Flink |
flink-log4j | log4j.properties | File setelan Log4j |
hadoop-env | hadoop-env.sh | Variabel lingkungan khusus Hadoop |
hadoop-log4j | log4j.properties | File setelan Log4j |
hbase | hbase-site.xml | Konfigurasi HBase |
hbase-log4j | log4j.properties | File setelan Log4j |
hdfs | hdfs-site.xml | Konfigurasi HDFS Hadoop |
hive | hive-site.xml | Konfigurasi Hive |
hive-log4j2 | hive-log4j2.properties | File setelan Log4j |
hudi | hudi-default.conf | Konfigurasi Hudi |
mapred | mapred-site.xml | Konfigurasi Hadoop MapReduce |
mapred-env | mapred-env.sh | Variabel lingkungan khusus Hadoop MapReduce |
babi | pig.properties | Konfigurasi Pig |
pig-log4j | log4j.properties | File setelan Log4j |
presto | config.properties | Konfigurasi Presto |
presto-jvm | jvm.config | Konfigurasi JVM khusus Presto |
spark | spark-defaults.conf | Konfigurasi Spark |
spark-env | spark-env.sh | Variabel lingkungan khusus Spark |
spark-log4j | log4j.properties | File setelan Log4j |
tez | tez-site.xml | Konfigurasi Tez |
webcat-log4j | webhcat-log4j2.properties | File setelan Log4j |
benang | yarn-site.xml | Konfigurasi Hadoop YARN |
yarn-env | yarn-env.sh | Variabel lingkungan khusus Hadoop YARN |
zeppelin | zeppelin-site.xml | Konfigurasi Zeppelin |
zeppelin-env | zeppelin-env.sh | Variabel lingkungan khusus Zeppelin (Khusus Komponen Opsional) |
zeppelin-log4j | log4j.properties | File setelan Log4j |
zookeeper | zoo.cfg | Konfigurasi Zookeeper |
zookeeper-log4j | log4j.properties | File setelan Log4j |
Catatan
- Beberapa properti dicadangkan dan tidak dapat diganti karena memengaruhi fungsi cluster Dataproc. Jika mencoba mengubah properti yang direservasi, Anda akan menerima pesan error saat membuat cluster.
- Anda dapat menentukan beberapa perubahan dengan memisahkan setiap perubahan dengan koma.
- Flag
--properties
tidak dapat mengubah file konfigurasi yang tidak ditampilkan di atas. - Perubahan pada properti akan diterapkan sebelum daemon di cluster Anda dimulai.
- Jika ada, properti yang ditentukan akan diperbarui. Jika tidak ada, properti yang ditentukan akan ditambahkan ke file konfigurasi.
Properti layanan Dataproc
Properti yang tercantum di bagian ini khusus untuk Dataproc. Properti ini dapat digunakan untuk mengonfigurasi lebih lanjut fungsi cluster Dataproc Anda.
Pemformatan
Flag gcloud dataproc clusters create --properties
menerima format string
berikut:
property_prefix1:property1=value1,property_prefix2:property2=value2,...
Pemisah default yang digunakan untuk memisahkan beberapa properti cluster adalah koma (,). Namun, jika koma disertakan dalam nilai properti, Anda harus mengubah pemisah dengan menentukan "^delimiter^" di awal daftar properti (lihat pengelakan topik gcloud untuk mengetahui informasi selengkapnya).
- Contoh menggunakan pemisah "#":
--properties ^#^property_prefix1:property1=part1,part2#property_prefix2:property2=value2
- Contoh menggunakan pemisah "#":
Contoh:
Buat cluster dan tetapkan Enhanced Flexibility Mode ke shuffle pekerja utama Spark.
gcloud dataproc clusters create CLUSTER_NAME \ --region=REGION \ --properties=dataproc:efm.spark.shuffle=primary-worker \ other args ...
Tabel properti layanan Dataproc
Awalan properti | Properti | Nilai | Deskripsi |
---|---|---|---|
dataproc | agent.process.threads.job.min | number |
Dataproc menjalankan driver tugas pengguna secara serentak dalam kumpulan thread. Properti ini mengontrol jumlah minimum thread dalam kumpulan thread untuk startup cepat meskipun tidak ada tugas yang berjalan (default: 10). |
dataproc | agent.process.threads.job.max | number |
Dataproc menjalankan driver tugas pengguna secara serentak dalam kumpulan thread. Properti ini mengontrol jumlah maksimum thread dalam kumpulan thread, sehingga membatasi konkurensi maksimum tugas pengguna. Tingkatkan nilai ini untuk konkurensi yang lebih tinggi (default: 100). |
dataproc | am.primary_only | true atau false |
Tetapkan properti ini ke true untuk mencegah master aplikasi berjalan di pekerja preemptible cluster Dataproc. Catatan: Fitur ini hanya tersedia dengan Dataproc 1.2 dan yang lebih baru. Nilai defaultnya adalah false . |
dataproc | conda.env.config.uri | gs://<path> |
Lokasi file konfigurasi lingkungan Conda di Cloud Storage. Lingkungan Conda baru akan dibuat dan diaktifkan berdasarkan file ini. Untuk mengetahui informasi selengkapnya, lihat Menggunakan properti Cluster terkait Conda. (default: empty ). |
dataproc | conda.packages | Paket Conda | Properti ini menggunakan daftar paket Conda yang dipisahkan koma dengan versi tertentu yang akan diinstal di lingkungan Conda base . Untuk mengetahui informasi selengkapnya, lihat Menggunakan properti Cluster terkait Conda. (default: empty ). |
dataproc | dataproc.allow.zero.workers | true atau false |
Tetapkan properti SoftwareConfig ini ke true dalam permintaan API clusters.create Dataproc untuk membuat Cluster node tunggal, yang mengubah jumlah pekerja default dari 2 menjadi 0, dan menempatkan komponen pekerja di host master. Cluster node tunggal juga dapat dibuat dari konsol Google Cloud atau dengan Google Cloud CLI dengan menetapkan jumlah pekerja ke 0 . |
dataproc | dataproc.alpha.master.nvdimm.size.gb | 1500-6500 | Menetapkan nilai akan membuat master Dataproc dengan Intel Optane DC Persistent Memory. Catatan: VM Optane hanya dapat dibuat di zona us-central1-f , hanya dengan jenis mesin n1-highmem-96-aep , dan hanya dalam project yang diizinkan. |
dataproc: | dataproc.alpha.worker.nvdimm.size.gb | 1500-6500 | Menetapkan nilai akan membuat pekerja Dataproc dengan Intel Optane DC Persistent Memory. Catatan: VM Optane hanya dapat dibuat di zona us-central1-f , hanya dengan jenis mesin n1-highmem-96-aep , dan hanya dalam project yang diizinkan. |
dataproc: | dataproc.await-new-workers-service-registration | true atau false |
Properti ini tersedia di image 2.0.49+. Nilai defaultnya adalah false . Tetapkan properti ini ke true untuk menunggu pekerja utama baru mendaftarkan pemimpin layanan, seperti HDFS NameNode dan YARN ResourceManager, selama pembuatan cluster atau penskalaan cluster (hanya layanan HDFS dan YARN yang dipantau). Jika ditetapkan ke true , jika pekerja baru gagal mendaftar ke layanan, pekerja akan diberi status FAILED . Pekerja yang gagal akan dihapus jika cluster diskalakan. Jika cluster sedang dibuat, pekerja yang gagal akan dihapus jika flag gcloud dataproc clusters create --action-on-failed-primary-workers=DELETE atau kolom actionOnFailedPrimaryWorkers=DELETE API ditentukan sebagai bagian dari perintah gcloud atau permintaan pembuatan cluster API. |
dataproc: | dataproc.beta.secure.multi-tenancy.user.mapping | user-to-service account mappings |
Properti ini menggunakan daftar pemetaan akun pengguna ke akun layanan. Pengguna yang dipetakan dapat mengirimkan beban kerja interaktif ke cluster dengan identitas pengguna yang terisolasi (lihat Multi-tenancy yang Aman Berbasis Akun Layanan Dataproc). |
dataproc: | dataproc.cluster.caching.enabled | true atau false |
Jika cache cluster diaktifkan, cluster akan meng-cache data Cloud Storage yang diakses oleh tugas Spark, yang akan meningkatkan performa tugas tanpa mengorbankan konsistensi. (default: false ). |
dataproc | dataproc.cluster-ttl.consider-yarn-activity | true atau false |
Jika ditetapkan ke true , Penghapusan Terjadwal Cluster akan mempertimbangkan aktivitas YARN dan Dataproc Jobs API saat menghitung waktu tidak ada aktivitas cluster. Jika ditetapkan ke false , hanya aktivitas Dataproc Jobs API yang dipertimbangkan. (default: true ). Untuk informasi selengkapnya, lihat Penghitungan waktu tidak ada aktivitas cluster. |
dataproc | dataproc.conscrypt.provider.enable | true atau false |
Mengaktifkan (true ) atau menonaktifkan (false ) Conscrypt sebagai penyedia keamanan Java utama. Catatan: Conscrypt diaktifkan secara default di Dataproc 1.2 dan yang lebih tinggi, tetapi dinonaktifkan di 1.0/1.1. |
dataproc | dataproc.cooperative.multi-tenancy.user.mapping | user-to-service account mappings |
Properti ini menggunakan daftar pemetaan akun pengguna ke akun layanan yang dipisahkan koma. Jika cluster dibuat dengan menetapkan properti ini, saat pengguna mengirimkan tugas, cluster akan mencoba meniru akun layanan yang sesuai saat mengakses Cloud Storage melalui konektor Cloud Storage. Fitur ini memerlukan konektor Cloud Storage versi 2.1.4 atau yang lebih tinggi. Untuk mengetahui informasi selengkapnya, lihat Multi-tenancy kooperatif Dataproc. (default: empty ). |
dataproc | dataproc.control.max.assigned.job.tasks | 100 |
Properti ini membatasi jumlah tugas yang dapat berjalan secara serentak di node master cluster. Jika jumlah tugas aktif melebihi batas tugas, tugas baru akan dimasukkan ke dalam antrean hingga tugas yang sedang berjalan selesai dan resource dibebaskan untuk memungkinkan tugas baru dijadwalkan. Catatan: Menetapkan batas tugas default yang melebihi 100 (default) tidak direkomendasikan karena dapat menyebabkan kondisi kehabisan memori di node master. |
dataproc | dataproc:hudi.version | Versi Hudi | Menetapkan versi Hudi yang digunakan dengan komponen Dataproc Hudi opsional. Catatan: Versi ini ditetapkan oleh Dataproc agar kompatibel dengan versi image cluster. Jika ditetapkan oleh pengguna, pembuatan cluster dapat gagal jika versi yang ditentukan tidak kompatibel dengan image cluster. |
dataproc | dataproc.lineage.enabled | true |
Mengaktifkan lineage data di cluster Dataproc untuk tugas Spark. |
dataproc | dataproc.localssd.mount.enable | true atau false |
Apakah akan memasang SSD lokal sebagai direktori sementara Hadoop/Spark dan direktori data HDFS (default: true ). |
dataproc | dataproc.logging.stackdriver.enable | true atau false |
Mengaktifkan (true ) atau menonaktifkan (false ) Cloud Logging (default: true ). Lihat Harga Cloud Logging untuk mengetahui tagihan terkait. |
dataproc | dataproc.logging.stackdriver.job.driver.enable | true atau false |
Mengaktifkan (true ) atau menonaktifkan (false ) log driver tugas Dataproc di Cloud Logging. Lihat Output dan log tugas Dataproc (default: false ). |
dataproc | dataproc.logging.stackdriver.job.yarn.container.enable | true atau false |
Mengaktifkan (true ) atau menonaktifkan (false ) log penampung YARN di Cloud Logging. Lihat Opsi output tugas Spark. (default: false ). |
dataproc | dataproc.master.custom.init.actions.mode | RUN_BEFORE_SERVICES atau RUN_AFTER_SERVICES |
Untuk cluster image 2.0+, jika ditetapkan ke RUN_AFTER_SERVICES , tindakan inisialisasi di master akan berjalan setelah HDFS dan layanan apa pun yang bergantung pada HDFS diinisialisasi. Contoh layanan yang bergantung pada HDFS meliputi: HBase, Hive Server2, Ranger, Solr, dan server histori Spark dan MapReduce. (default: RUN_BEFORE_SERVICES ). |
dataproc | dataproc.monitoring.stackdriver.enable | true atau false |
Mengaktifkan (true ) atau menonaktifkan (false ) Agen pemantauan (default: false ). Properti ini tidak digunakan lagi. Lihat Mengaktifkan pengumpulan metrik kustom untuk mengaktifkan pengumpulan metrik Dataproc OSS di Pemantauan. |
dataproc | dataproc.scheduler.driver-size-mb | number |
Jejak memori driver rata-rata, yang menentukan jumlah maksimum tugas serentak yang akan dijalankan cluster. Nilai defaultnya adalah 1 GB. Nilai yang lebih kecil, seperti 256 , mungkin sesuai untuk tugas Spark. |
dataproc | dataproc.scheduler.job-submission-rate | number |
Tugas akan dibatasi jika rasio ini terlampaui. Rasio defaultnya adalah 1.0 QPS. |
dataproc | dataproc.scheduler.max-concurrent-jobs | number |
Jumlah maksimum tugas serentak. Jika nilai ini tidak ditetapkan saat cluster dibuat, batas atas tugas serentak dihitung sebagai max((masterMemoryMb - 3584) / masterMemoryMbPerJob, 5) . masterMemoryMb ditentukan oleh jenis mesin VM master. masterMemoryMbPerJob adalah 1024 secara default, tetapi dapat dikonfigurasi saat pembuatan cluster dengan properti clusterdataproc:dataproc.scheduler.driver-size-mb . |
dataproc | dataproc.scheduler.max-memory-used | number |
Jumlah maksimum RAM yang dapat digunakan. Jika penggunaan saat ini melebihi nilai minimum ini, tugas baru tidak dapat dijadwalkan. Defaultnya adalah 0.9 (90%). Jika ditetapkan ke 1.0 , throttling tugas penggunaan memori master akan dinonaktifkan. |
dataproc | dataproc.scheduler.min-free-memory.mb | number |
Jumlah minimum memori kosong dalam megabyte yang diperlukan oleh driver tugas Dataproc untuk menjadwalkan tugas lain di cluster. Defaultnya adalah 256 MB. |
dataproc | dataproc.snap.enabled | true atau false |
Mengaktifkan atau menonaktifkan daemon Ubuntu Snap. Nilai defaultnya adalah true . Jika disetel kefalse , paket Snap yang telah diinstal sebelumnya dalam image tidak akan terpengaruh, tetapi pembaruan otomatis akan dinonaktifkan. Berlaku untuk image Ubuntu 1.4.71, 1.5.46, 2.0.20, dan yang lebih baru. |
dataproc | dataproc.worker.custom.init.actions.mode | RUN_BEFORE_SERVICES |
Untuk cluster image versi pra-2.0, RUN_BEFORE_SERVICES tidak ditetapkan, tetapi dapat ditetapkan oleh pengguna saat cluster dibuat. Untuk cluster image 2.0+, RUN_BEFORE_SERVICES telah ditetapkan, dan properti tidak dapat diteruskan ke cluster (tidak dapat diubah oleh pengguna). Untuk informasi tentang efek setelan ini, lihat Pertimbangan dan panduan penting—Pemrosesan inisialisasi. |
dataproc | dataproc.yarn.orphaned-app-termination.enable | true atau false |
Nilai defaultnya adalah true . Tetapkan ke false untuk mencegah Dataproc menghentikan aplikasi YARN yang "terlantar". Dataproc menganggap aplikasi YARN sebagai yatim jika driver tugas yang mengirimkan aplikasi YARN telah keluar. Peringatan: Jika Anda menggunakan mode cluster Spark (spark.submit.deployMode=cluster ) dan menetapkan spark.yarn.submit.waitAppCompletion=false , driver Spark akan keluar tanpa menunggu aplikasi YARN selesai; dalam hal ini, tetapkan dataproc:dataproc.yarn.orphaned-app-termination.enable=false . Tetapkan juga properti ini ke false jika Anda mengirimkan tugas Hive. |
dataproc | efm.spark.shuffle | primary-worker |
Jika ditetapkan ke primary-worker , data shuffle Spark akan ditulis ke pekerja utama". Lihat Mode Fleksibilitas yang Ditingkatkan Dataproc untuk mengetahui informasi selengkapnya. |
dataproc | job.history.to-gcs.enabled | true atau false |
Memungkinkan persistensi file histori MapReduce dan Spark ke bucket sementara Dataproc (default: true untuk versi image 1.5+). Pengguna dapat menimpa lokasi persistensi file histori tugas melalui properti berikut: mapreduce.jobhistory.done-dir , mapreduce.jobhistory.intermediate-done-dir , spark.eventLog.dir , dan spark.history.fs.logDirectory . Lihat Dataproc Persistent History Server untuk mengetahui informasi tentang properti cluster ini dan properti cluster lainnya yang terkait dengan file peristiwa dan histori tugas Dataproc. |
dataproc | jobs.file-backed-output.enable | true atau false |
Mengonfigurasi tugas Dataproc untuk menyalurkan outputnya ke file sementara di direktori /var/log/google-dataproc-job . Harus ditetapkan ke true untuk mengaktifkan logging driver tugas di Cloud Logging (default: true ). |
dataproc | jupyter.listen.all.interfaces | true atau false |
Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk versi image 1.3+ adalah false , yang membatasi koneksi ke localhost (127.0.0.1 ) saat Component Gateway diaktifkan (pengaktifan Component Gateway tidak diperlukan untuk image 2.0+). Setelan default ini dapat diganti dengan menetapkan properti ini ke true untuk mengizinkan semua koneksi. |
dataproc | jupyter.notebook.gcs.dir | gs://<dir-path> |
Lokasi di Cloud Storage untuk menyimpan notebook Jupyter. |
dataproc | kerberos.beta.automatic-config.enable | true atau false |
Jika ditetapkan ke true , pengguna tidak perlu menentukan sandi akun utama root Kerberos dengan flag --kerberos-root-principal-password dan --kerberos-kms-key-uri (default: false ). Lihat Mengaktifkan Mode Aman Hadoop melalui Kerberos untuk mengetahui informasi selengkapnya. |
dataproc | kerberos.cross-realm-trust.admin-server | hostname/address |
nama host/alamat server admin jarak jauh (sering kali sama dengan server KDC). |
dataproc | kerberos.cross-realm-trust.kdc | hostname/address |
nama host/alamat KDC jarak jauh. |
dataproc | kerberos.cross-realm-trust.realm | realm name |
Nama realm dapat terdiri dari string ASCII HURUF BESAR. Biasanya, nama realm sama dengan nama domain DNS Anda (dalam HURUF BESAR). Contoh: Jika mesin diberi nama "machine-id.example.west-coast.mycompany.com", realm terkait dapat ditetapkan sebagai "EXAMPLE.WEST-COAST.MYCOMPANY.COM". |
dataproc | kerberos.cross-realm-trust.shared-password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk sandi bersama yang dienkripsi KMS. |
dataproc | kerberos.kdc.db.key.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk file yang dienkripsi KMS yang berisi kunci master database KDC. |
dataproc | kerberos.key.password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk file yang dienkripsi KMS yang berisi sandi kunci dalam file keystore. |
dataproc | kerberos.keystore.password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk file terenkripsi KMS yang berisi sandi keystore. |
dataproc | kerberos.keystore.uri1 | gs://<dir-path> |
Lokasi di Cloud Storage untuk file keystore yang berisi sertifikat karakter pengganti dan kunci pribadi yang digunakan oleh node cluster. |
dataproc | kerberos.kms.key.uri | KMS key URI |
URI kunci KMS yang digunakan untuk mendekripsi sandi root, misalnya projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (lihat ID resource kunci). |
dataproc | kerberos.root.principal.password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk sandi terenkripsi KMS bagi akun utama root Kerberos. |
dataproc | kerberos.tgt.lifetime.hours | hours |
Masa berlaku maksimum tiket pemberian tiket. |
dataproc | kerberos.truststore.password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk file terenkripsi KMS yang berisi sandi ke file truststore. |
dataproc | kerberos.truststore.uri2 | gs://<dir-path> |
Lokasi di Cloud Storage untuk file truststore yang dienkripsi KMS yang berisi sertifikat tepercaya. |
dataproc | pip.packages | Paket Pip | Properti ini menggunakan daftar paket Pip yang dipisahkan koma dengan versi tertentu, yang akan diinstal di lingkungan Conda base . Untuk mengetahui informasi selengkapnya, lihat Properti Cluster terkait Conda. (default: empty ). |
dataproc | ranger.kms.key.uri | KMS key URI |
URI kunci KMS yang digunakan untuk mendekripsi sandi pengguna admin Ranger, misalnya projects/project-id/locations/region/keyRings/key-ring/cryptoKeys/key (lihat ID resource kunci). |
dataproc | ranger.admin.password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk sandi yang dienkripsi KMS bagi pengguna admin Ranger. |
dataproc | ranger.db.admin.password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk sandi terenkripsi KMS bagi pengguna admin database Ranger. |
dataproc | ranger.cloud-sql.instance.connection.name | cloud sql instance connection name |
Nama koneksi instance Cloud SQL, misalnya project-id:region:name. |
dataproc | ranger.cloud-sql.root.password.uri | gs://<dir-path> |
Lokasi di Cloud Storage untuk sandi terenkripsi KMS bagi pengguna root instance Cloud SQL. |
dataproc | ranger.cloud-sql.use-private-ip | true atau false |
Apakah komunikasi antara instance cluster dan instance Cloud SQL harus melalui IP pribadi (nilai default adalah false ). |
dataproc | solr.gcs.path | gs://<dir-path> |
Jalur Cloud Storage untuk bertindak sebagai direktori utama Solr. |
dataproc | startup.component.service-binding-timeout.hadoop-hdfs-namenode | seconds |
Durasi waktu skrip startup Dataproc akan menunggu hadoop-hdfs-namenode untuk mengikat ke port sebelum memutuskan bahwa startup-nya telah berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit). |
dataproc | startup.component.service-binding-timeout.hive-metastore | seconds |
Jumlah waktu skrip startup Dataproc akan menunggu layanan hive-metastore untuk mengikat ke port sebelum memutuskan bahwa startup-nya telah berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit). |
dataproc | startup.component.service-binding-timeout.hive-server2 | seconds |
Jumlah waktu yang diperlukan skrip startup Dataproc untuk menunggu hive-server2 terikat ke port sebelum memutuskan bahwa startup-nya telah berhasil. Nilai maksimum yang dikenali adalah 1.800 detik (30 menit). |
dataproc | user-attribution.enabled | true atau false |
Tetapkan properti ini ke true untuk mengatribusikan tugas Dataproc ke identitas pengguna yang mengirimkannya (nilai default adalah false ). |
dataproc | yarn.docker.enable | true atau false |
Tetapkan ke true untuk mengaktifkan fitur Dataproc Docker di YARN (nilai defaultnya adalah false ). |
dataproc | yarn.docker.image | docker image |
Saat mengaktifkan fitur Dataproc Docker on YARN (dataproc:yarn.docker.enable=true ), Anda dapat menggunakan properti opsional ini untuk menentukan image docker (misalnya, dataproc:yarn.docker.image=gcr.io/project-id/image:1.0.1 ). Jika ditentukan, image akan didownload dan di-cache di semua node cluster selama pembuatan cluster. |
dataproc | yarn.log-aggregation.enabled | true atau false |
Memungkinkan (true ) mengaktifkan agregasi log YARN ke temp bucket cluster. Nama bucket memiliki format berikut: dataproc-temp-<REGION>-<PROJECT_NUMBER>-<RANDOM_STRING> . (default: true untuk versi image 1.5+). Catatan: Bucket sementara cluster tidak dihapus saat cluster dihapus. Pengguna juga dapat menetapkan lokasi log YARN gabungan dengan menimpa properti YARN yarn.nodemanager.remote-app-log-dir . |
knox | gateway.host | ip address |
Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk versi image 1.3+ adalah 127.0.0.1 , yang membatasi koneksi ke localhost saat Component Gateway diaktifkan. Setelan default dapat diganti, misalnya dengan menetapkan properti ini ke 0.0.0.0 untuk mengizinkan semua koneksi. |
zeppelin | zeppelin.notebook.gcs.dir | gs://<dir-path> |
Lokasi di Cloud Storage untuk menyimpan notebook Zeppelin. |
zeppelin | zeppelin.server.addr | ip address |
Untuk mengurangi risiko eksekusi kode jarak jauh melalui API server notebook yang tidak aman, setelan default untuk versi image 1.3+ adalah 127.0.0.1 , yang membatasi koneksi ke localhost saat Component Gateway diaktifkan. Setelan default ini dapat diganti, misalnya dengan menetapkan properti ini ke 0.0.0.0 untuk mengizinkan semua koneksi. |
1File keystore: File keystore berisi sertifikat SSL. File ini harus dalam format Java KeyStore (JKS). Saat disalin ke VM, nama file akan diganti menjadi keystore.jks
.
Sertifikat SSL harus berupa sertifikat pengganti yang berlaku untuk setiap node
dalam cluster.
2File truststore: File truststore harus
dalam format Java KeyStore (JKS). Saat disalin ke VM, nama file akan diganti menjadi
truststore.jks
.