Properti penyedia Dataproc

Penyedia Dataproc di Cloud Data Fusion memanggil Dataproc API untuk membuat dan menghapus cluster di project Google Cloud Anda. Anda dapat mengonfigurasi cluster di setelan penyedia.

Untuk mengetahui informasi selengkapnya tentang kompatibilitas antara versi Cloud Data Fusion dan versi Dataproc, lihat Kompatibilitas versi.

Properti

Properti Deskripsi
ID Project Project Google Cloud tempat cluster Dataproc dibuat. Project harus mengaktifkan Dataproc API.
Kunci akun layanan kreator

Kunci akun layanan yang diberikan kepada penyedia harus memiliki izin untuk mengakses API Dataproc dan Compute Engine. Karena kunci akun Anda bersifat sensitif, sebaiknya berikan kunci akun menggunakan Penyimpanan Aman.

Setelah membuat kunci aman, Anda dapat menambahkannya ke namespace atau profil komputasi sistem. Untuk profil komputasi namespace, klik shield dan pilih kunci aman. Untuk profil komputasi sistem, masukkan nama kunci di kolom Secure Account Key.

Region Lokasi geografis tempat Anda dapat menghosting resource, seperti node komputasi untuk cluster Dataproc.
Zona Area deployment terisolasi dalam suatu region.
Jaringan Jaringan VPC dalam project Google Cloud Anda yang akan digunakan saat membuat cluster Dataproc.
ID project host jaringan Jika jaringan berada di project Google Cloud lain, masukkan project ID project tersebut. Untuk VPC Bersama, masukkan ID project host tempat jaringan berada.
Subnet Subnet yang akan digunakan saat membuat cluster. Zona harus berada dalam jaringan yang diberikan dan di wilayah tempat zona berada. Jika dibiarkan kosong, subnet akan dipilih berdasarkan jaringan dan zona.
Akun layanan Runner Nama akun layanan virtual machine (VM) Dataproc yang digunakan untuk menjalankan program. Jika dibiarkan kosong, akun layanan Compute Engine default akan digunakan.
Jumlah master

Jumlah node master di cluster. Node ini berisi YARN Resource Manager, HDFS NameNode, dan semua driver. Harus ditetapkan ke 1 atau 3.

Default adalah 1.

Jenis mesin master

Jenis mesin master yang akan digunakan. Pilih salah satu jenis mesin berikut:

  • n1
  • n2
  • n2d
  • e2

Di Cloud Data Fusion versi 6.7.2 dan yang lebih baru, defaultnya adalah e2.

Pada versi 6.7.1, defaultnya adalah n2.

Di versi 6.7.0 dan yang lebih lama, defaultnya adalah n1.

Core master

Jumlah core virtual yang dialokasikan ke node master.

Defaultnya adalah 2.

Memori master (GB)

Jumlah memori, dalam gigabyte, yang dialokasikan ke node master.

Default-nya adalah 8 GB.

Ukuran disk master (GB)

Ukuran disk, dalam gigabyte, yang dialokasikan ke node master.

Defaultnya adalah 1.000 GB.

Jenis disk master

Jenis boot disk untuk node master:

  • Disk Persisten Standar
  • SSD Persistent Disk

Default-nya adalah Persistent Disk Standar.

Jenis mesin pekerja

Jenis mesin pekerja yang akan digunakan. Pilih salah satu jenis mesin berikut:

  • n1
  • n2
  • n2d
  • e2

Di Cloud Data Fusion versi 6.7.2 dan yang lebih baru, defaultnya adalah e2.

Pada versi 6.7.1, defaultnya adalah n2.

Di versi 6.7.0 dan yang lebih lama, defaultnya adalah n1.

Core pekerja

Jumlah core virtual yang dialokasikan ke node pekerja.

Defaultnya adalah 2.

Memori pekerja (GB)

Jumlah memori, dalam gigabyte, yang dialokasikan ke node pekerja.

Default-nya adalah 8 GB.

Ukuran disk pekerja (GB)

Ukuran disk, dalam gigabyte, yang dialokasikan ke node pekerja.

Defaultnya adalah 1.000 GB.

Jenis disk pekerja

Jenis boot disk untuk node pekerja:

  • Disk Persisten Standar
  • SSD Persistent Disk

Default-nya adalah Persistent Disk Standar.

Menggunakan Penskalaan Otomatis standar Memungkinkan penggunaan penskalaan otomatis Dataproc standar.
Jumlah pekerja utama

Node pekerja berisi YARN NodeManager dan HDFS DataNode.

Defaultnya adalah 2.

Jumlah pekerja sekunder Node pekerja sekunder berisi YARN NodeManager, tetapi tidak berisi HDFS DataNode. Nilai ini biasanya ditetapkan ke nol, kecuali jika kebijakan penskalaan otomatis mengharuskannya lebih tinggi.
Kebijakan penskalaan otomatis

Jalur untuk ID kebijakan penskalaan otomatis atau URI resource.

Untuk informasi tentang cara mengonfigurasi dan menggunakan penskalaan otomatis Dataproc untuk mengubah ukuran cluster secara otomatis dan dinamis guna memenuhi permintaan workload, lihat Kapan harus menggunakan penskalaan otomatis dan Menskalakan otomatis cluster Dataproc.

Metadata Metadata tambahan untuk instance yang berjalan di cluster Anda. Anda biasanya dapat menggunakannya untuk melacak penagihan dan penagihan balik. Untuk mengetahui informasi selengkapnya, lihat Metadata cluster.
Network tags Tetapkan Tag jaringan untuk menerapkan aturan firewall ke node tertentu dalam cluster. Tag jaringan harus dimulai dengan huruf kecil dan dapat berisi huruf kecil, angka, dan tanda hubung. Tag harus diakhiri dengan huruf kecil atau angka.
Mengaktifkan Booting Aman

Mengaktifkan Booting Aman di VM Dataproc.

Default-nya adalah False.

Mengaktifkan vTPM

Mengaktifkan Virtual Trusted Platform Module (vTPM) di VM Dataproc.

Default-nya adalah False.

Mengaktifkan Pemantauan Integritas

Mengaktifkan Pemantauan Integritas virtual di VM Dataproc.

Default-nya adalah False.

Versi gambar Versi image Dataproc. Jika dibiarkan kosong, salah satu akan dipilih secara otomatis. Jika properti URI gambar kustom dibiarkan kosong, properti ini akan diabaikan.
URI gambar kustom URI image Dataproc. Jika dibiarkan kosong, nilai ini akan disimpulkan dari properti Image version.
Bucket staging Bucket Cloud Storage yang digunakan untuk melakukan staging dependensi tugas dan file konfigurasi untuk menjalankan pipeline di Dataproc.
Bucket sementara

Bucket Cloud Storage yang digunakan untuk menyimpan data cluster dan tugas efemeral, seperti file histori Spark di Dataproc.

Properti ini diperkenalkan di Cloud Data Fusion versi 6.9.2.

Nama kunci enkripsi Kunci enkripsi yang dikelola pelanggan (CMEK) yang digunakan oleh Dataproc.
Cakupan OAuth

Cakupan OAuth 2.0 yang mungkin perlu Anda minta untuk mengakses Google API, bergantung pada tingkat akses yang Anda perlukan. Google Cloud Cakupan Platform selalu disertakan.

Properti ini diperkenalkan di Cloud Data Fusion versi 6.9.2.

Tindakan inisialisasi Daftar skrip yang akan dijalankan selama melakukan inisialisasi kluster. Tindakan inisialisasi harus ditempatkan di Cloud Storage.
Properti cluster Properti cluster yang mengganti properti konfigurasi default layanan Hadoop. Untuk informasi selengkapnya tentang pasangan nilai kunci yang berlaku, lihat Properti cluster.
Label umum

Label untuk mengatur cluster dan tugas Dataproc yang dibuat.

Anda dapat memberi label pada setiap resource, lalu memfilter resource berdasarkan label. Informasi tentang label diteruskan ke sistem penagihan, sehingga pelanggan dapat memerinci tagihan penagihan Anda berdasarkan label.

Waktu tidak ada aktivitas maksimum

Konfigurasikan Dataproc untuk menghapus cluster jika tidak ada aktivitas selama lebih dari jumlah menit yang ditentukan. Cluster biasanya dihapus langsung setelah operasi berakhir, tetapi penghapusan dapat gagal dalam situasi yang jarang terjadi. Untuk mengetahui informasi selengkapnya, lihat Memecahkan masalah penghapusan cluster.

Defaultnya adalah 30 menit.

Lewati penghapusan cluster

Menentukan apakah akan melewati penghapusan cluster di akhir operasi. Anda harus menghapus cluster secara manual. Ini hanya boleh digunakan saat men-debug proses yang gagal.

Default-nya adalah False.

Mengaktifkan Integrasi Stackdriver Logging

Aktifkan integrasi logging Stackdriver.

Defaultnya adalah True.

Mengaktifkan Integrasi Stackdriver Monitoring

Aktifkan integrasi pemantauan Stackdriver.

Defaultnya adalah True.

Mengaktifkan Gateway Komponen

Aktifkan gateway komponen untuk mengakses antarmuka cluster, seperti YARN ResourceManager dan Spark HistoryServer.

Default-nya adalah False.

Pilih IP eksternal

Saat sistem berjalan di Google Cloud dalam jaringan yang sama dengan cluster, sistem biasanya menggunakan alamat IP internal saat berkomunikasi dengan cluster. Untuk selalu menggunakan alamat IP eksternal, tetapkan nilai ini ke True.

Default-nya adalah False.

Membuat penundaan polling

Jumlah detik yang harus ditunggu setelah membuat cluster untuk memulai polling guna melihat apakah cluster telah dibuat.

Defaultnya adalah 60 detik.

Setelan polling mengontrol frekuensi polling status cluster saat membuat dan menghapus cluster. Jika Anda memiliki banyak pipeline yang dijadwalkan untuk berjalan secara bersamaan, sebaiknya ubah setelan ini.

Membuat jitter polling

Jumlah maksimum jitter acak, dalam detik, untuk ditambahkan ke penundaan saat membuat cluster. Anda dapat menggunakan properti ini untuk mencegah banyak panggilan API serentak di Google Cloud saat Anda memiliki banyak pipeline yang dijadwalkan untuk berjalan pada waktu yang sama persis.

Defaultnya adalah 20 detik.

Penundaan penghapusan polling

Jumlah detik yang harus ditunggu setelah menghapus cluster untuk memulai polling guna melihat apakah cluster telah dihapus.

Defaultnya adalah 30 detik.

Interval polling

Jumlah detik yang ditunggu di antara polling untuk status cluster.

Defaultnya adalah 2.

Properti antarmuka web profil Dataproc yang dipetakan ke properti JSON

Nama properti UI profil Dataproc Nama properti JSON profil Dataproc
Label profil name
Nama profil label
Deskripsi description
ID Project projectId
Kunci akun layanan kreator accountKey
Region region
Zona zone
Jaringan network
ID project host jaringan networkHostProjectId
Subnet subnet
Akun layanan Runner serviceAccount
Jumlah master masterNumNodes
Jenis mesin master masterMachineType
Core master masterCPUs
Memori master (GB) masterMemoryMB
Ukuran disk master (GB) masterDiskGB
Jenis disk master masterDiskType
Jumlah pekerja utama workerNumNodes
Jumlah pekerja sekunder secondaryWorkerNumNodes
Jenis mesin pekerja workerMachineType
Core pekerja workerCPUs
Memori pekerja (GB) workerMemoryMB
Ukuran disk pekerja (GB) workerDiskGB
Jenis disk pekerja workerDiskType
Metadata clusterMetaData
Network tags networkTags
Mengaktifkan Booting Aman secureBootEnabled
Mengaktifkan vTPM vTpmEnabled
Mengaktifkan Pemantauan Integritas integrityMonitoringEnabled
Versi gambar imageVersion
URI gambar kustom customImageUri
Bucket Cloud Storage gcsBucket
Nama kunci enkripsi encryptionKeyName
Kebijakan penskalaan otomatis autoScalingPolicy
Tindakan inisialisasi initActions
Properti cluster clusterProperties
Label clusterLabels
Waktu tidak ada aktivitas maksimum idleTTL
Lewati penghapusan cluster skipDelete
Mengaktifkan Integrasi Stackdriver Logging stackdriverLoggingEnabled
Mengaktifkan Integrasi Stackdriver Monitoring stackdriverMonitoringEnabled
Mengaktifkan Gateway Komponen componentGatewayEnabled
Pilih IP eksternal preferExternalIP
Membuat penundaan polling pollCreateDelay
Membuat jitter polling pollCreateJitter
Penundaan penghapusan polling pollDeleteDelay
Interval polling pollInterval

Praktik Terbaik

Saat membuat cluster statis untuk pipeline, lihat praktik terbaik konfigurasi cluster.

Langkah selanjutnya