Dokumen ini menjelaskan cara mengonfigurasi VM pekerja untuk tugas Dataflow.
Secara default, Dataflow memilih jenis mesin untuk VM pekerja yang menjalankan tugas Anda, beserta ukuran dan jenis Persistent Disk. Untuk mengonfigurasi VM pekerja, tetapkan opsi pipeline berikut saat Anda membuat tugas.
Jenis mesin
Jenis mesin Compute Engine yang digunakan Dataflow saat memulai VM pekerja. Anda dapat menggunakan jenis mesin x86 atau Arm, termasuk jenis mesin kustom.
Java
Tetapkan opsi pipeline workerMachineType
.
Python
Tetapkan opsi pipeline machine_type
.
Go
Tetapkan opsi pipeline worker_machine_type
.
Untuk Arm, seri mesin Tau T2A didukung. Untuk mengetahui informasi selengkapnya tentang penggunaan VM Arm, lihat Menggunakan VM Arm di Dataflow.
Jenis mesin dengan inti bersama, seperti pekerja seri
f1
dang1
, tidak didukung berdasarkan Perjanjian Tingkat Layanan Dataflow.Penagihan tidak bergantung pada kelompok jenis mesin. Untuk mengetahui informasi selengkapnya, lihat Harga Dataflow.
Jenis mesin kustom
Untuk menentukan jenis mesin kustom, gunakan format berikut:
FAMILY-vCPU-MEMORY
. Ganti kode berikut:
- FAMILY. Gunakan salah satu nilai berikut:
Seri mesin Nilai N1 custom
N2 n2-custom
N2D n2d-custom
N4 n4-custom
E2 e2-custom
- vCPU. Jumlah vCPU.
- MEMORY. Memori, dalam MB.
Untuk mengaktifkan memori tambahan, tambahkan -ext
ke jenis mesin. Contoh: n2-custom-6-3072
,
n2-custom-2-32768-ext
.
Untuk mengetahui informasi selengkapnya tentang jenis mesin kustom yang valid, lihat Jenis mesin kustom dalam dokumentasi Compute Engine.
Jenis disk
Jenis Persistent Disk yang akan digunakan.
Jangan tentukan Persistent Disk saat menggunakan Streaming Engine.
Java
Tetapkan opsi pipeline workerDiskType
.
Python
Tetapkan opsi pipeline worker_disk_type
.
Go
Tetapkan opsi pipeline disk_type
.
Untuk menentukan jenis disk, gunakan format berikut:
compute.googleapis.com/projects/PROJECT_ID/zones/ZONE/diskTypes/DISK_TYPE
.
Ganti kode berikut:
- PROJECT_ID: project ID Anda
- ZONE: zona untuk Persistent Disk, misalnya
us-central1-b
- DISK_TYPE: jenis disk,
pd-ssd
ataupd-standard
Untuk informasi selengkapnya, lihat halaman referensi Compute Engine API untuk diskTypes.
Ukuran disk
Ukuran Persistent Disk.
Java
Tetapkan opsi pipeline diskSizeGb
.
Python
Tetapkan opsi pipeline disk_size_gb
.
Go
Tetapkan opsi pipeline disk_size_gb
.
Jika Anda menetapkan opsi ini, tentukan minimal 30 GB untuk memperhitungkan image booting pekerja dan log lokal.
Menurunkan ukuran disk akan mengurangi I/O shuffle yang tersedia. Tugas yang terikat shuffle yang tidak menggunakan Dataflow Shuffle atau Streaming Engine dapat mengakibatkan peningkatan runtime dan biaya tugas.
Tugas batch
Untuk tugas batch yang menggunakan Dataflow Shuffle, opsi ini menetapkan ukuran disk booting VM pekerja. Untuk tugas batch yang tidak menggunakan Dataflow Shuffle, opsi ini menetapkan ukuran disk yang digunakan untuk menyimpan data yang diacak; ukuran disk booting tidak terpengaruh.
Jika tugas batch menggunakan Dataflow Shuffle, ukuran disk defaultnya adalah 25 GB. Jika tidak, kapasitas defaultnya adalah 250 GB.
Tugas streaming
Untuk tugas streaming yang menggunakan Streaming Engine, opsi ini menetapkan ukuran disk booting. Untuk tugas streaming yang tidak menggunakan Streaming Engine, opsi ini menetapkan ukuran setiap Persistent Disk tambahan yang dibuat oleh layanan Dataflow; disk booting tidak terpengaruh.
Jika tugas streaming tidak menggunakan Streaming Engine, Anda dapat menetapkan ukuran disk booting
dengan flag eksperimen streaming_boot_disk_size_gb
. Misalnya, tentukan
--experiments=streaming_boot_disk_size_gb=80
untuk membuat disk booting sebesar 80 GB.
Jika tugas streaming menggunakan Streaming Engine, ukuran disk default-nya adalah 30 GB. Jika tidak, defaultnya adalah 400 GB.