Penyedia Dataproc di Cloud Data Fusion memanggil Dataproc API untuk membuat dan menghapus cluster di project Google Cloud Anda. Anda dapat mengonfigurasi cluster di setelan penyedia.
Untuk informasi selengkapnya tentang kompatibilitas antara versi Cloud Data Fusion dan versi Dataproc, lihat Kompatibilitas versi.
Properti
Properti | Deskripsi |
---|---|
ID Project | Project Google Cloud tempat cluster Dataproc dibuat. Project harus mengaktifkan Dataproc API. |
Kunci akun layanan kreator | Kunci akun layanan yang diberikan kepada penyedia harus memiliki izin untuk mengakses Dataproc dan Compute Engine API. Karena kunci akun Anda bersifat sensitif, sebaiknya berikan kunci akun menggunakan Secure Storage. Setelah membuat kunci aman, Anda dapat menambahkannya ke namespace atau profil komputasi sistem. Untuk profil komputasi namespace, klik perisai , lalu pilih kunci aman. Untuk profil komputasi sistem, masukkan nama kunci di kolom Secure Account Key. |
Region | Lokasi geografis tempat Anda dapat menghosting resource, seperti node komputasi untuk cluster Dataproc. |
Zone | Area deployment yang terisolasi dalam satu region. |
Jaringan | Jaringan VPC dalam project Google Cloud Anda yang akan digunakan saat membuat cluster Dataproc. |
Project ID host jaringan | Jika jaringan berada di project Google Cloud lain, masukkan ID project tersebut. Untuk VPC Bersama, masukkan ID project host tempat jaringan berada. |
Subnet | Subnet yang akan digunakan saat membuat cluster. ID ini harus berada dalam jaringan yang ditentukan dan di region tempat zona tersebut berada. Jika dibiarkan kosong, subnet akan dipilih berdasarkan jaringan dan zona. |
Akun layanan runner | Nama akun layanan virtual machine (VM) Dataproc yang digunakan untuk menjalankan program. Jika dibiarkan kosong, akun layanan Compute Engine default akan digunakan. |
Jumlah master | Jumlah node master dalam cluster. Node ini berisi YARN Resource Manager, HDFS NameNode, dan semua driver. Harus ditetapkan ke 1 atau 3. Default adalah 1. |
Jenis mesin master | Jenis mesin master yang akan digunakan. Pilih salah satu jenis mesin berikut:
Di Cloud Data Fusion versi 6.7.2 dan yang lebih baru, defaultnya adalah e2. Pada versi 6.7.1, defaultnya adalah n2. Pada versi 6.7.0 dan yang lebih lama, defaultnya adalah n1. |
Master core | Jumlah core virtual yang dialokasikan ke node master. Defaultnya adalah 2. |
Memori master (GB) | Jumlah memori, dalam gigabyte, yang dialokasikan ke node master. Defaultnya adalah 8 GB. |
Ukuran disk master (GB) | Ukuran disk, dalam gigabyte, yang dialokasikan ke node master. Defaultnya adalah 1.000 GB. |
Jenis disk master | Jenis boot disk untuk node master:
Defaultnya adalah Persistent Disk Standar. |
Jenis mesin pekerja | Jenis mesin pekerja yang akan digunakan. Pilih salah satu jenis mesin berikut:
Di Cloud Data Fusion versi 6.7.2 dan yang lebih baru, defaultnya adalah e2. Pada versi 6.7.1, defaultnya adalah n2. Pada versi 6.7.0 dan yang lebih lama, defaultnya adalah n1. |
Core pekerja | Jumlah core virtual yang dialokasikan ke node pekerja. Defaultnya adalah 2. |
Memori pekerja (GB) | Jumlah memori, dalam gigabyte, yang dialokasikan ke node pekerja. Defaultnya adalah 8 GB. |
Ukuran disk pekerja (GB) | Ukuran disk, dalam gigabyte, yang dialokasikan ke node pekerja. Defaultnya adalah 1.000 GB. |
Jenis disk pekerja | Jenis boot disk untuk node pekerja:
Defaultnya adalah Persistent Disk Standar. |
Menggunakan Penskalaan Otomatis standar | Mengaktifkan penggunaan penskalaan Dataproc yang telah ditetapkan sebelumnya. |
Jumlah pekerja primer | Node pekerja berisi YARN NodeManager dan HDFS DataNode. Defaultnya adalah 2. |
Jumlah pekerja sekunder | Node pekerja sekunder berisi YARN NodeManager, tetapi bukan DataNode HDFS. Nilai ini biasanya disetel ke nol, kecuali jika kebijakan penskalaan otomatis mengharuskannya lebih tinggi. |
Kebijakan penskalaan otomatis | Jalur untuk ID kebijakan penskalaan otomatis atau URI resource. Untuk mengetahui informasi tentang cara mengonfigurasi dan menggunakan penskalaan otomatis Dataproc guna mengubah ukuran cluster secara otomatis dan dinamis guna memenuhi permintaan workload, lihat Kapan harus menggunakan penskalaan otomatis dan Penskalaan otomatis cluster Dataproc. |
Metadata | Metadata tambahan untuk instance yang berjalan di cluster Anda. Biasanya Anda dapat menggunakannya untuk melacak penagihan dan penagihan balik. Untuk mengetahui informasi selengkapnya, lihat Metadata cluster. |
Network tags | Tetapkan tag Jaringan untuk menerapkan aturan firewall ke node tertentu dari sebuah cluster. Tag jaringan harus diawali dengan huruf kecil dan dapat berisi huruf kecil, angka, dan tanda hubung. Tag harus diakhiri dengan huruf kecil atau angka. |
Aktifkan Booting Aman | Mengaktifkan Booting Aman di VM Dataproc. Defaultnya adalah False. |
Mengaktifkan vTPM | Mengaktifkan Trusted Platform Module (vTPM) virtual di VM Dataproc. Defaultnya adalah False. |
Mengaktifkan Pemantauan Integritas | Mengaktifkan Pemantauan Integritas virtual di VM Dataproc. Defaultnya adalah False. |
Versi image | Versi gambar Dataproc. Jika dibiarkan kosong, salah satunya akan dipilih secara otomatis. Jika properti URI gambar kustom dibiarkan kosong, properti ini akan diabaikan. |
URI gambar kustom | URI gambar Dataproc. Jika dibiarkan kosong, ID ini disimpulkan dari properti Image version. |
Bucket Staging | Bucket Cloud Storage yang digunakan untuk mentahap dependensi tugas dan file konfigurasi untuk menjalankan pipeline di Dataproc. |
Bucket sementara | Bucket Cloud Storage yang digunakan untuk menyimpan data tugas dan cluster sementara, seperti file histori Spark di Dataproc. Properti ini diperkenalkan di Cloud Data Fusion versi 6.9.2. |
Nama kunci enkripsi | Kunci enkripsi yang dikelola pelanggan (CMEK) yang digunakan oleh Dataproc. |
Cakupan OAuth | Cakupan OAuth 2.0 yang mungkin perlu Anda minta untuk mengakses Google API, bergantung pada tingkat akses yang Anda perlukan. Cakupan Google Cloud Platform selalu disertakan. Properti ini diperkenalkan di Cloud Data Fusion versi 6.9.2. |
Tindakan inisialisasi | Daftar skrip yang akan dijalankan selama melakukan inisialisasi kluster. Tindakan inisialisasi harus dilakukan di Cloud Storage. |
Properti cluster | Properti cluster yang mengganti properti konfigurasi default layanan Hadoop. Untuk mengetahui informasi selengkapnya tentang key-value pair yang berlaku, lihat Properti cluster. |
Label umum | Label untuk mengatur cluster Dataproc dan tugas yang sedang dibuat. Anda dapat memberi label pada setiap resource, lalu memfilter resource berdasarkan label. Informasi tentang label diteruskan ke sistem penagihan agar pelanggan dapat mengelompokkan biaya penagihan Anda berdasarkan label. |
Waktu tidak ada aktivitas maksimum | Konfigurasikan Dataproc untuk menghapus cluster jika tidak ada aktivitas lebih lama dari jumlah menit yang ditentukan. Cluster biasanya dihapus langsung setelah proses berakhir, tetapi penghapusan bisa saja gagal dalam situasi yang jarang terjadi. Untuk mengetahui informasi selengkapnya, lihat Memecahkan masalah saat menghapus cluster. Defaultnya adalah 30 menit. |
Lewati penghapusan cluster | Menentukan apakah akan melewati penghapusan cluster di akhir proses. Anda harus menghapus cluster secara manual. Fungsi ini hanya boleh digunakan saat proses debug pada proses yang gagal. Defaultnya adalah False. |
Aktifkan Integrasi Stackdriver Logging | Mengaktifkan integrasi Stackdriver logging. Defaultnya adalah True. |
Aktifkan Integrasi Stackdriver Monitoring | Mengaktifkan integrasi Stackdriver Monitoring. Defaultnya adalah True. |
Mengaktifkan Gateway Komponen | Aktifkan gateway komponen untuk mengakses antarmuka cluster, seperti YARN ResourceManager dan Spark HistoryServer. Defaultnya adalah False. |
Pilih IP eksternal | Saat berjalan di Google Cloud dalam jaringan yang sama dengan cluster, sistem biasanya menggunakan alamat IP internal saat berkomunikasi dengan cluster. Untuk selalu menggunakan alamat IP eksternal, tetapkan nilai ini ke True. Defaultnya adalah False. |
Membuat penundaan polling | Jumlah detik untuk menunggu setelah membuat cluster guna memulai polling guna mengetahui apakah cluster telah dibuat atau belum. Defaultnya adalah 60 detik. Setelan polling mengontrol seberapa sering status cluster disurvei saat membuat dan menghapus cluster. Jika Anda memiliki banyak pipeline yang dijadwalkan untuk berjalan secara bersamaan, Anda dapat mengubah setelan ini. |
Membuat jitter polling | Jumlah maksimum jitter acak, dalam detik, untuk ditambahkan ke penundaan saat membuat cluster. Anda dapat menggunakan properti ini untuk mencegah banyak panggilan API secara bersamaan di Google Cloud saat Anda memiliki banyak pipeline yang dijadwalkan untuk dijalankan pada waktu yang sama. Defaultnya adalah 20 detik. |
Menghapus penundaan polling | Jumlah detik untuk menunggu setelah menghapus cluster, untuk memulai polling guna mengetahui apakah cluster telah dihapus atau belum. Defaultnya adalah 30 detik. |
Interval polling | Jumlah detik untuk menunggu antar-polling untuk status cluster. Defaultnya adalah 2. |
Properti antarmuka web profil Dataproc dipetakan ke properti JSON
Nama properti UI profil Dataproc | Nama properti JSON profil Dataproc |
---|---|
Label profil | name |
Nama profil | label |
Deskripsi | description |
ID Project | projectId |
Kunci akun layanan kreator | accountKey |
Region | region |
Zone | zone |
Jaringan | network |
Project ID host jaringan | networkHostProjectId |
Subnet | subnet |
Akun layanan runner | serviceAccount |
Jumlah master | masterNumNodes |
Jenis mesin master | masterMachineType |
Master core | masterCPUs |
Memori master (GB) | masterMemoryMB |
Ukuran disk master (GB) | masterDiskGB |
Jenis disk master | masterDiskType |
Jumlah pekerja primer | workerNumNodes |
Jumlah pekerja sekunder | secondaryWorkerNumNodes |
Jenis mesin pekerja | workerMachineType |
Core pekerja | workerCPUs |
Memori pekerja (GB) | workerMemoryMB |
Ukuran disk pekerja (GB) | workerDiskGB |
Jenis disk pekerja | workerDiskType |
Metadata | clusterMetaData |
Network tags | networkTags |
Aktifkan Booting Aman | secureBootEnabled |
Mengaktifkan vTPM | vTpmEnabled |
Mengaktifkan Pemantauan Integritas | integrityMonitoringEnabled |
Versi image | imageVersion |
URI gambar kustom | customImageUri |
Bucket Cloud Storage | gcsBucket |
Nama kunci enkripsi | encryptionKeyName |
Kebijakan penskalaan otomatis | autoScalingPolicy |
Tindakan inisialisasi | initActions |
Properti cluster | clusterProperties |
Label | clusterLabels |
Waktu tidak ada aktivitas maksimum | idleTTL |
Lewati penghapusan cluster | skipDelete |
Aktifkan Integrasi Stackdriver Logging | stackdriverLoggingEnabled |
Aktifkan Integrasi Stackdriver Monitoring | stackdriverMonitoringEnabled |
Mengaktifkan Gateway Komponen | componentGatewayEnabled |
Pilih IP eksternal | preferExternalIP |
Membuat penundaan polling | pollCreateDelay |
Membuat jitter polling | pollCreateJitter |
Menghapus penundaan polling | pollDeleteDelay |
Interval polling | pollInterval |
Praktik Terbaik
Saat Anda membuat cluster statis untuk pipeline Anda, lihat praktik terbaik konfigurasi cluster.
Langkah selanjutnya
- Pelajari lebih lanjut cara mengelola profil komputasi.