Halaman ini menunjukkan cara menyelesaikan masalah terkait fitur penskalaan otomatis Dataflow dan memberikan informasi tentang cara mengelola penskalaan otomatis.
Tugas tidak ditingkatkan atau diturunkan skalanya
Bagian ini memberikan informasi tentang skenario yang mungkin mencegah pekerja melakukan penskalaan ke atas atau ke bawah.
Tugas streaming tidak diskalakan
Jika pipeline streaming Anda memiliki backlog, pekerja tidak akan diskalakan.
Masalah ini terjadi jika backlog berlangsung kurang dari beberapa menit atau jika pekerja menggunakan kurang dari 20% CPU mereka.
Terkadang, backlog meningkat, tetapi penggunaan CPU rendah. Karena beberapa tugas tidak memerlukan penggunaan CPU yang tinggi, menambahkan pekerja tidak akan meningkatkan performa. Dalam kasus tersebut, Dataflow tidak akan diskalakan. Untuk mengetahui informasi selengkapnya, lihat Penskalaan otomatis streaming. Skenario ini dapat terjadi karena alasan berikut:
- Pipeline memiliki intensitas I/O yang tinggi.
- Pipeline menunggu panggilan RPC eksternal.
- Tombol pintasan menyebabkan pemakaian CPU pekerja yang tidak merata.
- Pipeline tidak memiliki cukup kunci.
Tugas batch dan streaming tidak diskalakan
Tugas batch atau streaming Anda berjalan seperti yang diharapkan, tetapi saat lebih banyak pekerja diperlukan, tugas tidak diskalakan.
Masalah ini mungkin terjadi karena salah satu alasan berikut:
- File staging atau sementara tidak dapat diakses. Jika tugas Anda menggunakan bucket Cloud Storage, bucket tersebut mungkin memiliki konfigurasi siklus proses yang menghapus objek di bucket. Objek yang dihapus mencakup folder dan file sementara serta staging. Untuk memverifikasi apakah file telah dihapus, periksa konfigurasi siklus proses untuk bucket. Jika folder atau file staging atau sementara dihapus setelah tugas dimulai, paket yang diperlukan untuk membuat pekerja baru mungkin tidak ada. Untuk mengatasi masalah ini, buat ulang folder dan file di bucket.
- Aturan firewall mencegah pekerja mengirim dan menerima traffic di port TCP yang diperlukan. Aturan firewall dapat mencegah pekerja dimulai. Pekerja Dataflow harus dapat mengirim dan menerima traffic di port TCP 12345 dan 12346. Untuk informasi selengkapnya, termasuk langkah-langkah untuk mengatasi masalah ini, lihat Aturan firewall untuk Dataflow.
- Sumber kustom memiliki metode
getProgress()
yang menampilkan nilai NULL. Saat Anda menggunakan sumber kustom, metrik backlog mengandalkan nilai yang ditampilkan dari metodegetProgress()
sumber kustom Anda untuk mulai mengumpulkan data. Implementasi default untukgetProgress()
menampilkan nilai NULL. Untuk mengatasi masalah ini, pastikan sumber kustom Anda mengganti metodegetProgress()
default untuk menampilkan nilai non-NULL. - Update yang dipicu oleh Penskalaan Otomatis Vertikal akan menonaktifkan Penskalaan Otomatis Horizontal untuk sementara. Untuk informasi selengkapnya, lihat Pengaruh pada Penskalaan Otomatis Horizontal.
- Jika menggunakan operasi
map
di pipeline Python dan tugas Anda tidak diskalakan, Anda mungkin perlu menambahkan transformasiReshuffle
ke kode pipeline. Untuk informasi selengkapnya, lihat Pengurutan Ulang dalam dokumentasi Apache Beam.
Tugas streaming tidak diskalakan
Jika tugas streaming Anda memiliki backlog yang rendah dan penggunaan CPU yang rendah, pekerja tidak akan diskalakan. Masalah ini dapat terjadi karena berbagai alasan.
Jika tugas tidak menggunakan Streaming Engine, Dataflow akan menyeimbangkan jumlah persistent disk di antara pekerja. Akibatnya, setiap pekerja harus memiliki jumlah persistent disk yang sama. Misalnya, jika ada 100 disk dan 100 pekerja, setiap pekerja memiliki satu disk. Saat diskalakan ke bawah, tugas dapat memiliki 50 pekerja dengan dua persistent disk per pekerja. Tugas tidak akan diskalakan lagi hingga dapat memiliki 25 pekerja dengan empat persistent disk per pekerja. Selain itu, jumlah pekerja minimum adalah nilai yang ditetapkan ke
maxNumWorkers
dibagi dengan 15. Untuk informasi selengkapnya, lihat Rentang penskalaan untuk pipeline penskalaan otomatis streaming.Saat tugas menggunakan Streaming Engine, target penskalaan ke bawah didasarkan pada target penggunaan CPU sebesar 75%. Jika pemanfaatan CPU ini tidak dapat dicapai, penskalaan ke bawah akan dinonaktifkan.
Estimasi waktu antrean harus tetap di bawah sepuluh detik selama minimal dua menit sebelum pekerja diskalakan. Fluktuasi waktu backlog dapat menonaktifkan penskalaan ke bawah. Selain itu, throughput yang rendah dapat mendistorsi estimasi waktu.
PeriodicImpulse
didukung di Apache Beam SDK versi 2.60.0 dan yang lebih baru. Jika pipeline Anda menggunakanPeriodicImpulse
dengan Apache Beam SDK versi 2.59.0 dan yang lebih lama, pekerja Dataflow tidak diskalakan ke bawah seperti yang diharapkan.
Meningkatkan skala perhentian
Tugas batch atau streaming Anda mulai diskalakan, tetapi pekerja berhenti diskalakan meskipun ada antrean.
Masalah ini terjadi saat batas kuota tercapai.
- Kuota Compute Engine: Tugas Dataflow tunduk pada kuota Compute Engine project. Jika beberapa tugas sedang berjalan, project mungkin sudah mencapai batas kuota Compute Engine-nya. Dalam hal ini, Dataflow tidak dapat meningkatkan jumlah pekerja.
- Kuota CPU: Tugas Dataflow juga tunduk pada kuota CPU project. Jika jenis pekerja menggunakan lebih dari satu CPU, project mungkin berada di batas kuota CPU.
- Kuota alamat IP eksternal: Jika tugas Anda menggunakan alamat IP eksternal untuk berkomunikasi dengan resource, Anda memerlukan alamat IP eksternal sebanyak pekerja. Saat jumlah pekerja diskalakan, jumlah alamat IP eksternal juga akan meningkat. Saat Anda mencapai batas alamat IP, pekerja akan berhenti melakukan penskalaan.
Selain itu, jika region yang dipilih tidak memiliki resource, Anda tidak dapat membuat resource baru dengan jenis tersebut, meskipun masih ada sisa kuota di region atau project Anda. Misalnya, Anda mungkin masih memiliki kuota untuk membuat alamat IP eksternal di us-central1
, tetapi region tersebut mungkin tidak memiliki alamat IP yang tersedia. Untuk informasi selengkapnya, lihat Kuota dan ketersediaan resource.
Untuk mengatasi masalah ini, minta penambahan kuota atau jalankan tugas di wilayah lain.
Petunjuk penggunaan pekerja tidak berpengaruh
Anda menetapkan petunjuk penggunaan pekerja, tetapi perilaku penskalaan otomatis tidak berubah.
Untuk memahami masalah ini, buka
Diagram penggunaan CPU pekerja
dan periksa apakah petunjuk penggunaan pekerja digunakan secara aktif. Jika petunjuk
digunakan, diagram akan menampilkan
CPU utilization hint (actively used by autoscaler)
. Jika tidak, nilainya adalah
CPU utilization hint (not actively used by autoscaler)
.
Petunjuk penggunaan hanyalah salah satu faktor yang memengaruhi penskalaan otomatis. Tabel berikut mencantumkan beberapa alasan autoscaler mungkin tidak secara aktif menggunakan petunjuk:
Perilaku penskalaan yang diamati | Penyebab | Metrik yang perlu diperiksa |
---|---|---|
Tidak ada perubahan |
|
|
Peningkatan skala |
|
|
Perkecil skala |
|
Untuk informasi selengkapnya, lihat Heuristik penskalaan otomatis streaming.
Kesenjangan dalam metrik penskalaan otomatis
Ada kesenjangan singkat dan sementara dalam metrik penskalaan otomatis.
Masalah ini dapat terjadi jika tugas backend dimulai ulang. Kesenjangan dalam metrik ini tidak menunjukkan masalah pada penskalaan otomatis atau kondisi tugas streaming Anda.
CPU didistribusikan secara tidak merata
Saat tugas diskalakan secara otomatis, penggunaan CPU didistribusikan secara tidak merata di antara pekerja. Beberapa pekerja memiliki penggunaan CPU, latensi sistem, atau keaktualan data yang lebih tinggi daripada yang lain.
Masalah ini dapat terjadi jika data Anda berisi tombol pintasan. Hot key adalah kunci dengan elemen yang cukup untuk memengaruhi performa pipeline secara negatif. Setiap kunci harus diproses oleh satu pekerja, sehingga pekerjaan tidak dapat dibagi di antara pekerja.
Untuk mengetahui informasi selengkapnya, lihat panduan error tombol pintasan.
Item pekerjaan yang meminta status baca tidak lagi valid di backend
Selama komunikasi antara instance VM pekerja dan tugas Streaming Engine dalam pipeline streaming, error berikut akan terjadi:
The work item requesting state read is no longer valid on the backend.
The work has already completed or will be retried.
This is expected during autoscaling events.
Selama penskalaan otomatis, instance VM pekerja berkomunikasi dengan beberapa tugas Streaming Engine, dan setiap tugas menayangkan beberapa instance VM pekerja. Kunci item digunakan untuk mendistribusikan pekerjaan. Setiap tugas dan instance VM pekerja memiliki kumpulan rentang kunci, dan distribusi rentang ini dapat berubah secara dinamis. Misalnya, selama penskalaan otomatis, pengubahan ukuran tugas dapat menyebabkan distribusi rentang kunci berubah. Error ini dapat terjadi saat rentang kunci berubah. Error ini wajar, dan Anda dapat mengabaikannya kecuali jika Anda melihat korelasi antara pesan ini dan pipeline yang berperforma buruk.
Resource Streaming Engine tidak memadai
Jika Streaming Engine tidak dapat mengalokasikan jumlah minimum pekerja yang Anda minta, error berikut akan ditampilkan:
Streaming Engine does not currently have enough resources available to fulfill
the request.
Untuk mengatasi masalah ini, coba tetapkan jumlah pekerja minimum yang lebih kecil. Lihat Menetapkan rentang penskalaan otomatis.
Rentang penskalaan untuk pipeline penskalaan otomatis streaming
Bagian ini memberikan detail tentang rentang penskalaan untuk pipeline autoscaling streaming.
Java
Untuk tugas penskalaan otomatis streaming yang tidak menggunakan
Streaming Engine, layanan
Dataflow mengalokasikan antara 1 hingga 15 Persistent Disk ke
setiap pekerja. Alokasi ini berarti bahwa jumlah minimum pekerja yang digunakan untuk pipeline penskalaan otomatis streaming adalah N/15, dengan N adalah nilai --maxNumWorkers
.
Untuk tugas penskalaan otomatis streaming yang menggunakan Streaming Engine, jumlah pekerja minimum adalah 1.
Dataflow menyeimbangkan jumlah Persistent Disk di antara pekerja. Misalnya, jika pipeline Anda memerlukan tiga atau empat pekerja dalam steady
state, Anda dapat menetapkan --maxNumWorkers=15
. Pipeline secara otomatis
diskalakan antara 1 hingga 15 pekerja, menggunakan 1, 2, 3, 4, 5, 8, atau 15 pekerja, yang
masing-masing sesuai dengan 15, 8, 5, 4, 3, 2, atau 1 Persistent Disk per pekerja.
--maxNumWorkers
maksimal 1.000.
Python
Untuk tugas penskalaan otomatis streaming yang tidak menggunakan
Streaming Engine, layanan
Dataflow mengalokasikan antara 1 hingga 15 Persistent Disk ke
setiap pekerja. Alokasi ini berarti bahwa jumlah minimum pekerja yang digunakan untuk pipeline penskalaan otomatis streaming adalah N/15, dengan N adalah nilai --max_num_workers
.
Untuk tugas penskalaan otomatis streaming yang menggunakan Streaming Engine, jumlah pekerja minimum adalah 1.
Dataflow menyeimbangkan jumlah Persistent Disk di antara pekerja. Misalnya, jika pipeline Anda memerlukan tiga atau empat pekerja dalam steady
state, Anda dapat menetapkan --max_num_workers=15
. Pipeline secara otomatis
diskalakan antara 1 hingga 15 pekerja, menggunakan 1, 2, 3, 4, 5, 8, atau 15 pekerja, yang
masing-masing sesuai dengan 15, 8, 5, 4, 3, 2, atau 1 Persistent Disk per pekerja.
--max_num_workers
maksimal 1.000.
Go
Untuk tugas penskalaan otomatis streaming yang tidak menggunakan
Streaming Engine, layanan
Dataflow mengalokasikan antara 1 hingga 15 Persistent Disk ke
setiap pekerja. Alokasi ini berarti bahwa jumlah minimum pekerja yang digunakan untuk pipeline penskalaan otomatis streaming adalah N/15, dengan N adalah nilai --max_num_workers
.
Untuk tugas penskalaan otomatis streaming yang menggunakan Streaming Engine, jumlah pekerja minimum adalah 1.
Dataflow menyeimbangkan jumlah Persistent Disk di antara pekerja. Misalnya, jika pipeline Anda memerlukan tiga atau empat pekerja dalam steady
state, Anda dapat menetapkan --max_num_workers=15
. Pipeline secara otomatis
diskalakan antara 1 hingga 15 pekerja, menggunakan 1, 2, 3, 4, 5, 8, atau 15 pekerja, yang
masing-masing sesuai dengan 15, 8, 5, 4, 3, 2, atau 1 Persistent Disk per pekerja.
--max_num_workers
maksimal 1.000.
Jumlah maksimum pekerja yang mungkin digunakan oleh penskalaan otomatis streaming
Java
Dataflow beroperasi dalam batas kuota jumlah instance Compute Engine project Anda atau maxNumWorkers
, mana saja yang lebih rendah.
Python
Dataflow beroperasi dalam batas kuota jumlah instance Compute Engine project Anda atau max_num_workers
, mana saja yang lebih rendah.
Go
Dataflow beroperasi dalam batas kuota jumlah instance Compute Engine project Anda atau max_num_workers
, mana saja yang lebih rendah.
Membatasi penskalaan otomatis untuk mengurangi dampak pada penagihan
Jika tidak ingin penskalaan otomatis meningkatkan tagihan, Anda dapat membatasi jumlah pekerja maksimum yang dapat digunakan tugas streaming.
Java
Dengan menentukan --maxNumWorkers
, Anda membatasi rentang penskalaan yang digunakan untuk memproses
tugas Anda.
Python
Dengan menentukan --max_num_workers
, Anda membatasi rentang penskalaan yang digunakan untuk memproses
tugas Anda.
Go
Dengan menentukan --max_num_workers
, Anda membatasi rentang penskalaan yang digunakan untuk memproses
tugas Anda.
Mengubah rentang penskalaan
Untuk mengetahui informasi tentang cara mengubah rentang penskalaan di pipeline streaming, lihat Menetapkan rentang penskalaan otomatis.
Menonaktifkan penskalaan otomatis di pipeline streaming
Untuk menonaktifkan penskalaan otomatis di pipeline streaming, ikuti langkah-langkah berikut.
Java
Tetapkan --autoscalingAlgorithm=NONE
. Untuk informasi selengkapnya, lihat
Menonaktifkan Penskalaan Otomatis Horizontal.
Python
Tetapkan --autoscaling_algorithm=NONE
. Untuk informasi selengkapnya, lihat
Menonaktifkan Penskalaan Otomatis Horizontal.
Go
Tetapkan --autoscaling_algorithm=NONE
. Untuk informasi selengkapnya, lihat
Menonaktifkan Penskalaan Otomatis Horizontal.
Menggunakan jumlah pekerja tetap
Untuk tugas streaming yang tidak menggunakan Streaming Engine, perilaku defaultnya adalah menggunakan jumlah pekerja tetap. Untuk menggunakan penskalaan otomatis streaming dengan pipeline ini, Anda harus memilih ikut serta secara eksplisit karena tidak diaktifkan secara default.