Halaman ini diterjemahkan oleh Cloud Translation API.

Mengonfigurasi VM pekerja Dataflow

Dokumen ini menjelaskan cara mengonfigurasi VM pekerja untuk tugas Dataflow.

Secara default, Dataflow memilih jenis mesin untuk VM pekerja yang menjalankan tugas Anda, beserta ukuran dan jenis Persistent Disk. Untuk mengonfigurasi VM pekerja, tetapkan opsi pipeline berikut saat Anda membuat tugas.

Jenis mesin

Jenis mesin Compute Engine yang digunakan Dataflow saat memulai VM pekerja. Anda dapat menggunakan jenis mesin x86 atau Arm, termasuk jenis mesin kustom.

Java

Tetapkan opsi pipeline workerMachineType.

Python

Tetapkan opsi pipeline machine_type.

Go

Tetapkan opsi pipeline worker_machine_type.

Untuk Arm, seri mesin Tau T2A didukung. Untuk mengetahui informasi selengkapnya tentang penggunaan VM Arm, lihat artikel Menggunakan VM Arm di Dataflow.
Jenis mesin dengan inti bersama, seperti pekerja seri f1 dan g1, tidak didukung berdasarkan Perjanjian Tingkat Layanan Dataflow.
Penagihan tidak bergantung pada kelompok jenis mesin. Untuk mengetahui informasi selengkapnya, lihat Harga Dataflow.

Jenis mesin kustom

Untuk menentukan jenis mesin kustom, gunakan format berikut: FAMILY-vCPU-MEMORY. Ganti kode berikut:

FAMILY. Gunakan salah satu nilai berikut:

Seri mesin	Nilai
N1	`custom`
N2	`n2-custom`
N2D	`n2d-custom`
N4 Untuk tugas streaming, Streaming Engine harus diaktifkan. Untuk tugas batch, pengacakan Dataflow harus diaktifkan (default).	`n4-custom`
E2	`e2-custom`

vCPU. Jumlah vCPU.
MEMORY. Memori, dalam MB.

Untuk mengaktifkan memori tambahan, tambahkan -ext ke jenis mesin. Contoh: n2-custom-6-3072, n2-custom-2-32768-ext.

Untuk mengetahui informasi selengkapnya tentang jenis mesin kustom yang valid, lihat Jenis mesin kustom dalam dokumentasi Compute Engine.

Jenis disk

Jenis Persistent Disk yang akan digunakan.

Jangan tentukan Persistent Disk saat menggunakan Streaming Engine atau jenis mesin N4.

Java

Tetapkan opsi pipeline workerDiskType.

Python

Tetapkan opsi pipeline worker_disk_type.

Go

Tetapkan opsi pipeline disk_type.

Untuk menentukan jenis disk, gunakan format berikut: compute.googleapis.com/projects/PROJECT_ID/zones/ZONE/diskTypes/DISK_TYPE.

Ganti kode berikut:

PROJECT_ID: project ID Anda
ZONE: zona untuk Persistent Disk, misalnya us-central1-b
DISK_TYPE: jenis disk, pd-ssd atau pd-standard

Untuk mengetahui informasi selengkapnya, lihat halaman referensi Compute Engine API untuk diskTypes.

Ukuran disk

Ukuran Persistent Disk.

Java

Tetapkan opsi pipeline diskSizeGb.

Python

Tetapkan opsi pipeline disk_size_gb.

Go

Tetapkan opsi pipeline disk_size_gb.

Jika Anda menyetel opsi ini, tentukan setidaknya 30 GB untuk memperhitungkan image booting pekerja dan log lokal.

Mengurangi ukuran disk akan mengurangi I/O pengacakan yang tersedia. Tugas yang terikat shuffle yang tidak menggunakan Dataflow Shuffle atau Streaming Engine dapat menyebabkan peningkatan waktu proses dan biaya tugas.

Tugas batch

Untuk tugas batch yang menggunakan Dataflow Shuffle, opsi ini menetapkan ukuran disk booting VM pekerja. Untuk tugas batch yang tidak menggunakan Dataflow Shuffle, opsi ini menetapkan ukuran disk yang digunakan untuk menyimpan data yang di-shuffle; ukuran disk booting tidak terpengaruh.

Jika tugas batch menggunakan Dataflow Shuffle, ukuran disk defaultnya adalah 25 GB. Jika tidak, defaultnya adalah 250 GB.

Tugas streaming

Untuk tugas streaming yang menggunakan Streaming Engine, opsi ini menetapkan ukuran disk booting. Untuk tugas streaming yang tidak menggunakan Streaming Engine, opsi ini menetapkan ukuran setiap Persistent Disk tambahan yang dibuat oleh layanan Dataflow; boot disk tidak terpengaruh.

Jika tugas streaming tidak menggunakan Streaming Engine, Anda dapat menyetel ukuran disk booting dengan tanda eksperimen streaming_boot_disk_size_gb. Misalnya, tentukan --experiments=streaming_boot_disk_size_gb=80 untuk membuat boot disk sebesar 80 GB.

Jika tugas streaming menggunakan Streaming Engine, ukuran disk defaultnya adalah 30 GB. Jika tidak, defaultnya adalah 400 GB.

Gunakan Cloud Storage FUSE untuk memasang bucket Cloud Storage Anda ke VM Dataflow

Dengan Cloud Storage FUSE, Anda dapat memasang bucket Cloud Storage secara langsung dengan VM Dataflow, sehingga software dapat mengakses file seolah-olah file tersebut bersifat lokal. Integrasi ini menghilangkan kebutuhan untuk mendownload data terlebih dahulu, sehingga menyederhanakan akses data untuk workload Anda. Untuk mengetahui informasi selengkapnya, lihat Memproses data ML menggunakan Dataflow dan Cloud Storage FUSE.

Mengonfigurasi VM pekerja Dataflow Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Jenis mesin

Java

Python

Go

Jenis mesin kustom

Jenis disk

Java

Python

Go

Ukuran disk

Java

Python

Go

Tugas batch

Tugas streaming

Gunakan Cloud Storage FUSE untuk memasang bucket Cloud Storage Anda ke VM Dataflow

Langkah berikutnya

Mengonfigurasi VM pekerja Dataflow