Kuota dan batas

Dokumen ini mencantumkan quotas dan quotas yang berlaku untuk Dataflow.

Kuota membatasi jumlah resource Google Cloud bersama yang dapat digunakan project Google Cloud Anda, termasuk komponen hardware, software, dan jaringan. Oleh karena itu, kuota adalah bagian dari sistem yang melakukan hal berikut:

  • Memantau penggunaan atau pemakaian produk dan layanan Google Cloud oleh Anda.
  • Membatasi konsumsi Anda atas resource tersebut karena beberapa alasan, yang meliputi memastikan keadilan dan mengurangi lonjakan penggunaan.
  • Mempertahankan konfigurasi yang secara otomatis menerapkan pembatasan yang telah ditentukan.
  • Menyediakan sarana untuk meminta atau membuat perubahan pada kuota.

Pada umumnya, jika kuota terlampaui, sistem akan langsung memblokir akses ke resource Google yang relevan, dan tugas yang Anda coba lakukan akan gagal. Pada umumnya, kuota berlaku untuk setiap project Google Cloud serta digunakan bersama oleh semua aplikasi dan alamat IP yang menggunakan project Google Cloud tersebut.

Untuk menambah atau mengurangi sebagian besar kuota, gunakan Konsol Google Cloud. Untuk mengetahui informasi lebih lanjut, lihat artikel Meminta kuota yang lebih tinggi.

Ada juga batasan untuk resource Dataflow. Batas ini tidak terkait dengan sistem kuota. Batas tidak dapat diubah kecuali jika dinyatakan lain.

Layanan terkelola Dataflow memiliki kuota dan batas berikut:

  • Setiap project Google Cloud dapat membuat hingga 3.000.000 permintaan per menit.
  • Setiap tugas Dataflow dapat menggunakan maksimum 2.000 instance Compute Engine. Tanpa menentukan zona pekerja, setiap tugas streaming yang menggunakan Streaming Engine atau tugas batch yang menggunakan Dataflow Shuffle berbasis layanan dapat menggunakan maksimum 4.000 instance Compute Engine.
  • Setiap project Google Cloud dapat menjalankan maksimal 25 tugas Dataflow serentak secara default.
  • Setiap pekerja Dataflow memiliki batas maksimum log yang dapat dihasilkannya dalam interval waktu tertentu. Lihat dokumentasi logging untuk mengetahui batas pastinya.
  • Jika Anda memilih ikut serta dalam kuota tingkat organisasi, setiap organisasi dapat menjalankan maksimal 125 tugas Dataflow serentak secara default.
  • Setiap pengguna dapat membuat hingga 15.000 permintaan pemantauan per menit.
  • Setiap pengguna dapat membuat hingga 60 permintaan pembuatan tugas per menit.
  • Setiap pengguna dapat membuat hingga 60 permintaan template tugas per menit.
  • Setiap pengguna dapat membuat hingga 60 permintaan update tugas per menit.
  • Setiap project Google Cloud mendapatkan slot acak berikut di setiap region:
    • asia-east1: 48 slot
    • asia-northeast1: 24 slot
    • asia-northeast3: 32 slot
    • asia-south1: 64 slot
    • asia-southeast1: 64 slot
    • australia-southeast1: 24 slot
    • europe-west1: 640 slot
    • europe-west2: 32 slot
    • europe-west3: 40 slot
    • europe-west4: 512 slot
    • northamerica-northeast1: 512 slot
    • us-central1: 640 slot
    • us-east1: 640 slot
    • us-east4: 64 slot
    • us-west1: 384 slot
    • us-west2: 24 slot
    • us-west3: 24 slot
    • lainnya: 16 slot
    16 slot cukup untuk mengacak sekitar 10 TB data secara serentak.
  • Tugas batch Dataflow akan dibatalkan setelah 30 hari.

Kuota Compute Engine

Saat Anda menjalankan pipeline di layanan Dataflow, Dataflow akan membuat instance Compute Engine untuk menjalankan kode pipeline Anda.

Kuota Compute Engine ditentukan per region. Tinjau kuota Compute Engine project Anda dan minta penyesuaian berikut jika diperlukan:

  • CPU: Jenis mesin default untuk Dataflow adalah n1-standard-1 untuk batch, n1-standard-2 untuk tugas yang menggunakan Streaming Engine, dan n1-standard-4 untuk tugas yang tidak menggunakan Streaming Engine. FlexRS menggunakan n1-standard-2 mesin secara default. Selama rilis beta, FlexRS menggunakan 90% preemptible VM dan 10% VM reguler. Compute Engine menghitung jumlah CPU dengan menjumlahkan total CPU setiap instance. Misalnya, menjalankan 10 instance n1-standard-4 akan dihitung sebagai 40 CPU. Baca Jenis mesin Compute Engine untuk mengetahui pemetaan jenis mesin terhadap jumlah CPU.
  • Alamat IP yang Sedang Digunakan: Jumlah alamat IP yang sedang digunakan dalam project Anda harus cukup untuk mengakomodasi jumlah instance yang diinginkan. Untuk menggunakan 10 instance Compute Engine, Anda memerlukan 10 alamat IP yang sedang digunakan.
  • Persistent Disk: Dataflow memasang Persistent Disk ke setiap instance.
    • Ukuran disk default adalah 250 GB untuk batch dan 400 GB untuk pipeline streaming. Untuk 10 instance, secara default Anda memerlukan 2.500 GB Persistent Disk untuk satu tugas batch.
    • Ukuran disk default adalah 25 GB untuk pipeline batch Dataflow Shuffle.
    • Ukuran disk default adalah 30 GB untuk pipeline streaming Streaming Engine.
    • Layanan Dataflow saat ini dibatasi hingga 15 persistent disk per instance worker saat menjalankan tugas streaming. Setiap persistent disk bersifat lokal untuk setiap virtual machine Compute Engine. Rasio 1:1 antara pekerja dan disk adalah alokasi resource minimum.
    • Penggunaan Compute Engine didasarkan pada jumlah rata-rata pekerja, sedangkan penggunaan Persistent Disk didasarkan pada nilai pasti --maxNumWorkers. Persistent Disk didistribusikan ulang sedemikian rupa sehingga setiap pekerja memiliki jumlah disk terpasang yang sama.
  • Grup Instance yang Dikelola Regional: Dataflow men-deploy instance Compute Engine Anda sebagai Grup Instance yang Dikelola Regional. Anda harus memastikan bahwa Anda memiliki kuota terkait berikut yang tersedia:
    • Satu Grup Instance per tugas Dataflow
    • Satu Template Instance per tugas Dataflow
    • Satu Grup Instance yang Dikelola Regional per tugas Dataflow

Kuota tambahan

Bergantung pada sumber dan sink yang digunakan, Anda mungkin juga memerlukan kuota tambahan.

  1. Pub/Sub: Jika menggunakan Pub/Sub, Anda mungkin memerlukan kuota tambahan. Saat merencanakan kuota, perhatikan bahwa pemrosesan 1 pesan dari Pub/Sub memerlukan 3 operasi. Jika menggunakan stempel waktu kustom, Anda harus menggandakan jumlah operasi yang diharapkan, karena Dataflow akan membuat langganan terpisah untuk melacak stempel waktu kustom.
  2. BigQuery: Jika Anda menggunakan API streaming untuk BigQuery, batas kuota dan batasan lainnya berlaku.

Menemukan dan meningkatkan kuota

Anda dapat memeriksa penggunaan kuota khusus Dataflow Anda saat ini:

  1. Di konsol Google Cloud, buka APIs & services.
    Buka API & Services
  2. Untuk memeriksa penggunaan kuota slot Acak saat ini, pada tab Kuota, cari baris Slot acak dalam tabel, lalu di kolom Diagram Penggunaan, klik Tampilkan diagram penggunaan.

Jika Anda ingin meningkatkan kuota tugas, hubungi Dukungan Google Cloud, dan kami akan menaikkan batasnya ke nilai yang lebih sesuai dengan kebutuhan Anda. Kuota default adalah 25 tugas Dataflow serentak untuk project Anda atau 125 tugas Dataflow serentak untuk organisasi.

Selain itu, Anda dapat meningkatkan kuota slot Shuffle untuk tugas batch dengan mengirimkan permintaan dukungan dan menentukan ukuran set data Shuffle serentak maksimum yang diharapkan untuk semua tugas dalam project Anda. Sebelum meminta kuota Shuffle tambahan, jalankan pipeline Anda menggunakan Dataflow Shuffle dan periksa penggunaan kuota Shuffle yang sebenarnya.

Untuk tugas streaming, Anda dapat meningkatkan throughput Streaming Engine dengan mengirimkan permintaan dukungan ke Dukungan Google Cloud Platform. Dalam permintaan, tentukan jumlah maksimum data yang ingin diacak antar-pekerja setiap menit untuk setiap region tempat tugas dijalankan.

Layanan Dataflow juga menjalankan berbagai komponen Google Cloud, seperti BigQuery, Cloud Storage, Pub/Sub, dan Compute Engine. Layanan ini (dan layanan Google Cloud lainnya) menerapkan kuota untuk membatasi jumlah maksimum resource yang dapat digunakan dalam suatu project. Saat menggunakan Dataflow, Anda mungkin perlu menyesuaikan setelan kuota untuk layanan ini.

Dataflow Prime

Kuota dan batas untuk Dataflow dan Dataflow Prime sama. Jika memiliki kuota untuk Dataflow, Anda tidak memerlukan kuota tambahan untuk menjalankan tugas menggunakan Dataflow Prime.

Batas

Bagian ini menjelaskan batas praktis produksi untuk Dataflow.

Batas Jumlah
Jumlah maksimum pekerja per pipeline. 1.000
Ukuran maksimum untuk permintaan pembuatan tugas. Deskripsi pipeline dengan banyak langkah dan nama yang sangat panjang dapat mencapai batas ini. 10 MB
Ukuran maksimum untuk permintaan peluncuran template. 1 MB
Jumlah maksimum shard input sisi. 20.000
Ukuran maksimum untuk satu elemen (kecuali jika kondisi yang lebih ketat berlaku, misalnya, Streaming Engine). 2 GB
Ukuran maksimum untuk nilai elemen tunggal di Streaming Engine. 80 MB
Jumlah maksimum entri log dalam jangka waktu tertentu, per pekerja. 15.000 pesan setiap 30 detik
Jumlah maksimum metrik kustom per project. 100
Durasi penyimpanan rekomendasi. 30 hari
Batas Streaming Engine Jumlah
Byte maksimum untuk pesan Pub/Sub. 7 MB
Ukuran maksimum kunci besar. Kunci yang berukuran lebih dari 64 KB menyebabkan penurunan performa. 2 MB
Ukuran maksimum untuk input samping. 80 MB
Panjang maksimum untuk tag status yang digunakan oleh TagValue dan TagBag. 64 KB