Mengonfigurasi VM pekerja Dataflow

Dokumen ini menjelaskan cara mengonfigurasi VM pekerja untuk tugas Dataflow.

Secara default, Dataflow memilih jenis mesin untuk VM pekerja yang menjalankan tugas Anda, beserta ukuran dan jenis Persistent Disk. Untuk mengonfigurasi VM pekerja, tetapkan opsi pipeline berikut saat Anda membuat tugas.

Jenis mesin

Jenis mesin Compute Engine yang digunakan Dataflow saat memulai VM pekerja. Anda dapat menggunakan jenis mesin x86 atau Arm, termasuk jenis mesin kustom.

Java

Tetapkan opsi pipeline workerMachineType.

Python

Tetapkan opsi pipeline machine_type.

Go

Tetapkan opsi pipeline worker_machine_type.

Jenis mesin kustom

Untuk menentukan jenis mesin kustom, gunakan format berikut: FAMILY-vCPU-MEMORY. Ganti kode berikut:

  • FAMILY. Gunakan salah satu nilai berikut:
    Seri mesinNilai
    N1custom
    N2n2-custom
    N2Dn2d-custom
    N4n4-custom
    E2e2-custom
  • vCPU. Jumlah vCPU.
  • MEMORY. Memori, dalam MB.

Untuk mengaktifkan memori tambahan, tambahkan -ext ke jenis mesin. Contoh: n2-custom-6-3072, n2-custom-2-32768-ext.

Untuk mengetahui informasi selengkapnya tentang jenis mesin kustom yang valid, lihat Jenis mesin kustom dalam dokumentasi Compute Engine.

Jenis disk

Jenis Persistent Disk yang akan digunakan.

Jangan tentukan Persistent Disk saat menggunakan Streaming Engine.

Java

Tetapkan opsi pipeline workerDiskType.

Python

Tetapkan opsi pipeline worker_disk_type.

Go

Tetapkan opsi pipeline disk_type.

Untuk menentukan jenis disk, gunakan format berikut: compute.googleapis.com/projects/PROJECT_ID/zones/ZONE/diskTypes/DISK_TYPE.

Ganti kode berikut:

  • PROJECT_ID: project ID Anda
  • ZONE: zona untuk Persistent Disk, misalnya us-central1-b
  • DISK_TYPE: jenis disk, pd-ssd atau pd-standard

Untuk informasi selengkapnya, lihat halaman referensi Compute Engine API untuk diskTypes.

Ukuran disk

Ukuran Persistent Disk.

Java

Tetapkan opsi pipeline diskSizeGb.

Python

Tetapkan opsi pipeline disk_size_gb.

Go

Tetapkan opsi pipeline disk_size_gb.

Jika Anda menetapkan opsi ini, tentukan minimal 30 GB untuk memperhitungkan image booting pekerja dan log lokal.

Menurunkan ukuran disk akan mengurangi I/O shuffle yang tersedia. Tugas yang terikat shuffle yang tidak menggunakan Dataflow Shuffle atau Streaming Engine dapat mengakibatkan peningkatan runtime dan biaya tugas.

Tugas batch

Untuk tugas batch yang menggunakan Dataflow Shuffle, opsi ini menetapkan ukuran disk booting VM pekerja. Untuk tugas batch yang tidak menggunakan Dataflow Shuffle, opsi ini menetapkan ukuran disk yang digunakan untuk menyimpan data yang diacak; ukuran disk booting tidak terpengaruh.

Jika tugas batch menggunakan Dataflow Shuffle, ukuran disk defaultnya adalah 25 GB. Jika tidak, kapasitas defaultnya adalah 250 GB.

Tugas streaming

Untuk tugas streaming yang menggunakan Streaming Engine, opsi ini menetapkan ukuran disk booting. Untuk tugas streaming yang tidak menggunakan Streaming Engine, opsi ini menetapkan ukuran setiap Persistent Disk tambahan yang dibuat oleh layanan Dataflow; disk booting tidak terpengaruh.

Jika tugas streaming tidak menggunakan Streaming Engine, Anda dapat menetapkan ukuran disk booting dengan flag eksperimen streaming_boot_disk_size_gb. Misalnya, tentukan --experiments=streaming_boot_disk_size_gb=80 untuk membuat disk booting sebesar 80 GB.

Jika tugas streaming menggunakan Streaming Engine, ukuran disk default-nya adalah 30 GB. Jika tidak, defaultnya adalah 400 GB.

Langkah selanjutnya